До сих пор мы рассматривали однофакторные регрессионные модели. Грубо говоря, нам был дан единственный признак-фактор (причина), который влиял на признак-результат (следствие). И на основании эмпирических данных (выборочных пар значений в объеме штук) мы оценивали теснотукорреляционной зависимости от , а также строили линейные и нелинейные уравнения регрессии.
Но, разумеется, на зависимый показатель часто влияют несколько или даже очень много факторов: и наша сегодняшняя цель состоит в том, чтобы покорить множественную регрессию. Тема не очень сложная, однако, обширная и трудоёмкая, и на этом единственном уроке я разберу самые востребованные и распространённые задачи. Итак, мы научимся:
– Быстро строить уравнение множественной линейной регрессии в MS Excel (метод наименьших квадратов), находить основные характеристики модели и проверять её качество. Этот пункт реализован в видеоролике и будет полезен для самопроверки + тем читателям, кто не погружён в статистику, а проводит лишь прикладное исследование в какой-либо предметной области (экономике, социологии, психологии, etc).
– Выполнять детальные расчёты длядвухфакторнойлинейной модели, в том числе находить весь сопутствующий скарб: коэффициенты корреляции, детерминации, эластичности, бета; проверять значимость коэффициентов и всего уравнения. Помимо подробного мануала, смотрИте то же видео и ещё есть калькулятор, который позволяет не только автоматизировать расчёты, но и распечатать на чистовик готовое решение.
– И в конце статьи – краткая информация по расчётам модели с бОльшим количеством факторов. Формулы и добрые пожелания.
Чего НЕ будет? Не будет подробной теории и теоретизации; если вам нужен подобный материал, то некоторые источники я уже рекомендовал на уроке Модель однофакторной регрессии, копипаст:
Н. Ш. Кремер Б. А. Путко Эконометрика И. И. Елисеева Эконометрика
и ещё мне понравилась нижегородская методичка ННГАСУ: О. В. Любимцев О. Л. Любимцева Линейные регрессионные модели в эконометрике
Желающие без труда отыщут и более серьёзную литературу, как говорится, степень геморроя зависит от вашего аппетита :)
Ну а здесь будет всё (или почти всё) просто и популярно; …некоторые меня обвиняют в поверхностности, но пусть лучше материал усвоит максимальное количество читателей. Всё разберём на конкретном примере и простейшем случае, когда нам дано лишь два фактора:
Пример 82
По результатам выборочного исследования торговых предприятий региона были получены отчётные данные за предыдущий год:
…как обычно, я не ручаюсь за правдоподобность и достоверность приведённых данных, оставляя их на совести автора методички. Но это на самом деле и не важно, у нас на повестке дня математика.
Требуется:
– обосновать и оценить влияние каждого фактора на размер чистой прибыли предприятия;
– спрогнозировать среднеожидаемую прибыль предприятия при оборотах и чел. / 1 млн. руб.
Но перед тем как решать, конечно же, нужно понять смысл предложенных показателей.
Итак, фактор – количество оборотов оборотных средств. Что это такое? Оборотные средства – это деньги на закупку товара. Компания закупила товар и полностью продала его: таким образом, оборотные средства совершили один оборот. И предложенные в условии значения – это количество оборотов, которые совершили оборотные средства за год. Очевидно, что чем быстрее обращаются деньги, тем больше совершается продаж и тем больше может быть прибыль предприятия. Таким образом, предполагаем прямую корреляционную зависимость прибыли предприятия от количества оборотов оборотных средств . Следует ещё раз заметить, что это лишь общая тенденция, а не какое-то жёсткое правило, ведь есть товары с высокой и очень низкой маржой (наценкой).
Фактор второй, – трудоёмкость продаж. К сожалению, автор задачи не уточнил данный показатель, но, судя по всему, это среднее (за год) количество персонала, которое приходилось на один миллион выручки. Так или иначе, суть состоит в том, что чем больше людей в компании, тем больше расходы на оплату труда и тем меньше может быть её прибыль. Таким образом, предполагаем обратную корреляционную зависимость прибыли от трудоёмкости продаж .
Построив диаграммы рассеяния, не поленюсь:
– легко уловить, что обе зависимости близкИ к линейной.
– таким образом, существует сильная прямая корреляционная зависимость прибыли от количества оборотов оборотных средств;
– и сильная обратная корреляционная зависимость прибыли от трудоёмкости продаж;
Коэффициенты можно рассчитать подробно (см. по ссылке выше), но в данном случае это «проходные» вычисления, поэтому используем стандартную экселевскую функцию:
Теперь нам нужно совместить обе причины в единой модели и построить выборочное уравнение двухфакторной линейной регрессии. Но не всё так просто. Для того чтобы модель множественной регрессии была качественной и вообще вменяемой, должны выполняться ряд условий. Во-первых, признаки-факторы должны быть некоррелированы. Вычислим коэффициент линейной корреляции между ними:
– таким образом, корреляция между факторами весьма слабА и это очень хорошо. А логика здесь простА – если факторы сильно коррелированы (что называют мультиколлинеарностью), то один из них просто не имеет смысла включать в модель.
И, во-вторых, для линейной модели должны выполняться условия Гаусса-Маркова. Проверка этих условий – это отдельная большая тема, требующая местами кропотливых вычислений. Если у вас серьёзное исследование, то изучИте её более подробно (например, с помощью рекомендованной выше литературы) и воспользуйтесь специализированными статистическими программами. Ну а мы будем решать задачу в учебном режиме (по принципу «дано задание – нужно решить») и рассмотрим саму технику вычислений.
Заполним расчётную таблицу, в нижней строке «подобьём» суммы:
Таким образом, получаем систему:
Систему решим по формулам Крамера, определителирассчитаем с помощью функции =МОПРЕД(выделяем область три на три) приложения MS Excel.
Вычислим главный определитель системы: , значит, система имеет единственное решение.
В результате, искомое уравнение регрессии:
Полученное уравнение показывает, что с ростом оборота оборотных средств на 1 оборот (при неизменной трудоёмкости) прибыль увеличивается в среднем на 22,044 млн. руб., а с увеличением трудоемкости продаж на 1 чел. / млн. руб. (при неизменном обороте) – прибыль уменьшается в среднем на 3,9084 млн. руб.
Как видите, сделанный вывод аналогичен выводу, который мы сделали для уравнения линейной регрессии с одним фактором. И многие показатели также будут похожи, в том числе и методика их быстрого расчёта – самое время посмотреть кино:
Вы без труда сможете повторить все действия! – открываем экселевский файл и решаем! Достаточно будет «черновых» расчётов, не таких красивых, как в видео. А у кого совсем нет времени и / или желания оформлять задание, есть калькулятор, который не только автоматически выполняет расчёты, но и ставит нужные выводы!
Вычислим коэффициент множественной корреляции – он показывает силу совокупного влияния факторов на результат . Технически это можно реализовать несколькими способами.
Чаще всего для расчёта использует найденные выше пАрные коэффициенты корреляции: , сведённые в симметричную матрицу :
И коэффициент множественной корреляции можно рассчитать по формуле: , где – определитель матрицы парных коэффициентов линейной корреляции, а – определитель её факторной части (без «игрековой» строки и столбца). Это общая формула (не только для двух, но и для бОльшего количества факторов).
В нашей задаче: ! Здесь и далее я буду местами пренебрегать знаком .
В результате: – таким образом, прибыль предприятий очень сильно зависит от предложенных в задаче факторов.
Здесь используем ту же шкалу Чеддока с той поправкой, что коэффициент множественной корреляции принимает значения и не показывает направление зависимости (ибо факторы могут оказывать разнонаправленное действие, как в нашем случае):
Если фактора два, то формулу можно выразить в более человеческом виде:) – именно такой вариант употребим в массовой практике.
Вычислим коэффициент множественной детерминации:
– таким образом, в рамках построенной модели 93,3% вариации прибыли обусловлено числом оборотов оборотных средств и показателем трудоёмкости продаж. Остальные вариации объясняются факторами, не учтёнными в модели.
Коэффициент множественной детерминации также можно вычислить другим, более содержательным способом, о котором я рассказал на уроке Однофакторная регрессия. Здесь подход такой же: , где – общая сумма квадратов, а – остаточная сумма квадратов.
Найдём среднее значение признака-результата млн. руб. и заполним расчётную таблицу:
Таким образом, , в результате чего получаем тот же результат:
, с тем же выводом. Ну а для желающих понять или освежить в памяти смысл выполненных действий, ещё раз приведу ссылку на урок об однофакторной регрессии. Только сейчас случай двухфакторный, с тем же принципиальным подходом.
Вычислим частные коэффициенты корреляции. Что это такое, и чем они отличаются от парных коэффициентов ? Дело в том, что любой фактор опосредованно включает в себя (как правило) влияние других факторов, и это учитывается в парных коэффициентах. И в рамках модели множественной регрессии целесообразно исключить такое влияние, чтобы оценить «чистый» вклад каждого фактора в результат. Что и выражается частными коэффициентами корреляции
«Очистим» 1-й фактор от влияния 2-го: – таким образом, при устранении влияния трудоёмкости продаж чистая прибыль предприятий очень сильно зависит от числа оборотов оборотных средств.
И, наоборот, «очистим» 2-й фактор от опосредованного влияния 1-го: таким образом, при устранении влияния фактора оборотов оборотных средств чистая прибыль предприятий сильно зависит от трудоёмкости продаж.
Кроме того, можно найти частные коэффициенты детерминации и сделать вывод об «очищенном» процентном вкладе каждого фактора в результат.
Но повторюсь в который раз, что все эти выводы делаются в рамках построенной моделии не являются какой-то «абсолютной истиной».
Вернёмся к полученному уравнению регрессии и посмотрим на его коэффициенты при факторных переменных. Как мы видим, коэффициент по модулю больше коэффициента , но это ещё не значит, что 1-й фактор оказывает бОльшее влияние на результат, чем 2-й фактор. Это лишь номинальные значения. Истинная же весомость факторов рассчитывается с помощью относительных показателей– коэффициентов средней эластичности и бета-коэффициентов, о смысле которых я рассказал ещё в начальной школе. Здесь всё аналогично.
Отклонения можно рассчитать подробно (см. по ссылке выше), я же использовал экселевскую функцию =СТАНДОТКЛОН(массив значений выборки), которая возвращается исправленные стандартные отклонения; в новой версии Экселя эта функция модифицирована:=СТАНДОТКЛОН.В(массив значений выборки).
Вычислим коэффициенты средней эластичности:
– таким образом, при увеличении оборотов оборотных средств на 1% (при неизменной трудоёмкости продаж) чистая прибыль увеличивается в среднем на 1,6%.
– таким образом, при увеличении трудоёмкости продаж на 1% (при неизменных оборотах) чистая прибыль уменьшается в среднем на 0,6%.
И как мы видим, прибыль действительно более чувствительна к изменению 1-го фактора, однако всё же не настолько, насколько можно было подумать, глядя на коэффициенты .
Вычислим бета-коэффициенты:
– таким образом, при увеличении оборотов оборотных средств на одно стандартное отклонение (при неизменной трудоёмкости продаж) чистая прибыль увеличивается примерно на 0,69 своего стандартного отклонения.
– таким образом, при увеличении трудоёмкости продаж на одно стандартное отклонение (при неизменных оборотах) чистая прибыль уменьшается примерно на 0,46 своего стандартного отклонения.
Что ещё раз подтверждает бОльшую весомость 1-го фактора.
Проверим значимость коэффициентов уравнения регрессии на уровне значимости При этом рассмотрим лишь ключевые факторные коэффициенты .
Алгоритм такой же, как и в однофакторной модели. Но сначала повторим краткую суть предстоящих действий. Дело в том, что уравнение получено по результатам выборки. Но существует генеральная совокупностьторговыхпредприятий региона и генеральное уравнение . И возникает вопрос, насколько полученные выборочные значения далеки от истинных значений ? Насколько можно доверять выборочным результатам? (тем более выборка малА). Для проверки статистической значимости полученных значений используем аппарат статистических гипотез.
1) Проверим значимость коэффициента . Рассмотрим нулевую гипотезу – о том, что соответствующий коэффициент генерального уравнения равен нулю. По существу, это означает, что полученный выборочный результат обусловлен случайностью (малой выборкой, в частности) и на самом деле чистая прибыль не зависит от количества оборотов оборотных средств.
В качестве конкурирующей рассмотрим – гипотезу о том, что линейная корреляционная зависимость прибыли от оборотов существует.
Для проверки гипотезы на уровне значимости используем статистический критерий, где – значение выборочного коэффициента при 1-й факторной переменной, а – его стандартная ошибка. Случайная величина имеет распределение Стьюдента с количеством степеней свободы , где – количество факторов модели. Их у нас два, а посему .
Найдём наблюдаемое значение критерия. Если оно попадёт в «красную» область ( либо ), то нулевая гипотеза отвергается в пользу альтернативной; если же , то оснований отвергать нулевую гипотезу на данном уровне значимости – нет.
Вычислим стандартную ошибку коэффициента, учитывая, что нас -факторная модель:
Наблюдаемое значение критерия: – поэтому на уровне значимости гипотезу отвергаем в пользу конкурирующей гипотезы .
Вывод: коэффициент статистически значимо отличен от нуля, и полученное значение вряд ли объяснимо случайными факторами.
Вычислим стандартную ошибку 2-го коэффициента:
и наблюдаемое значение критерия: – поэтому на уровне значимости гипотезу отвергаем в пользу конкурирующей гипотезы .
Для первого коэффициента: (млн. руб.) – таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента .
И аналогично для второго коэффициента: (млн. руб.) – таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента
Интервалы получились грубые, конечно, ибо выборка малА.
Рассмотрим гипотезу – о том, что генеральный коэффициент множественной детерминации равен нулю, иными словами факторы модели вообще никак не влияют на прибыль компаний. И альтернативное утверждение гласит о том, что такое влияние есть.
Для проверки гипотезы используем статистический критерий, где – значение выборочного коэффициента множественной детерминации (которое от исследования к исследованию случайно), а – количество факторных (причинных) переменных. В нашей модели фактора два: , поэтому критерий принимает вид . Эта случайная величина имеет распределение Фишера (-распределение) с количеством степеней свободы .
Теперь вычислим наблюдаемое значение критерия. Если окажется что (красная область) то гипотезу на уровне значимости отвергаем; если же , то отвергать её – оснований нет:
В нашей задаче: – таким образом, на уровне значимости гипотезу отвергаем в пользу конкурирующей гипотезы .
Вывод: коэффициент множественной детерминации статистически значим, а значит, статистически значимо и уравнение .
И немного лирики, спрогнозируем среднеожидаемую прибыль предприятия при оборотах и трудоёмкости чел. / 1 млн.:
млн. руб.
В заключение урока краткая информация о том, как рассчитать модель множественной регрессии с бОльшим количеством факторов. Пусть признак-результат зависит, например, от трёх показателей . На первом шаге нужно составить симметричную матрицу парных коэффициентов линейной корреляции:
Важнейшим условием качества модели является слабая попарная коррелированность факторов (достаточно близкие к нулю значения ). В серьёзных исследованиях, кроме того, следует проверить условия Гаусса-Маркова, но это большая и обстоятельная тема, которую я оставил за кадром.
Коэффициенты регрессии находим как решение системы:
СравнИте её с системой двухфакторной модели и уловИте закономерность в коэффициентах. Да, столбцов в расчётной таблице будет побольше, но всё подъёмно, тестовые расчёты у меня заняли порядка 15 минут.
Коэффициент множественной детерминации удобно рассчитать по формуле: , где – определитель матрицы коэффициентов парной корреляции (см. выше), а – определитель её факторной части (без последней строки и столбца).
Следует сказать, что у этого коэффициента есть недостаток. Дело в том, что при включении в модель любых дополнительных факторов, в том числе малозначимых или вовсе посторонних, значение безвариантно возрастёт. И поэтому для контроля ситуации рассчитывают скорректированный коэффициент множественной детерминации:
, где – количество факторов модели.
Теперь при добавлении явно «плохого» фактора, значение даже уменьшится. Одним из критериев качества модели является тот факт, что значения достаточно близки к единице и не сильно отличаются друг от друга.
Для коэффициентов частной корреляции тоже есть свои формулы, но них я не останавливаюсь, как на второстепенных. А с коэффициентами эластичности и бета-коэффициентами проблем вообще никаких – просто добавляется дополнительный коэффициент:
Вывод по каждому коэффициенту делается с оговоркой, что два других фактора неизменны.
И на посошок всё-таки общие формулы для линейной модели с «эм» факторами , корреляционная матрица:
и система линейных уравнений в матричной форме:
…вроде нигде не ошибся, перепроверьте!
И я вас поздравляю! И себя тоже. Курс математической статистикина МатПрофи завершён. У него была непростая судьба – по разным обстоятельствам его создание растянулось на несколько лет. Но это свершилось, и мы здесь…. И я вам желаю всегда доводить важные дела до конца. Всего наилучшего!