26. Уравнение множественной линейной регрессии
До сих пор мы рассматривали однофакторные регрессионные модели. Грубо говоря, нам был дан единственный признак-фактор
(причина), который влиял на признак-результат
(следствие). И на основании эмпирических данных (выборочных пар значений
в объеме
штук) мы оценивали тесноту корреляционной зависимости
от
, а также строили линейные и нелинейные уравнения регрессии.
Но, разумеется, на зависимый показатель
часто влияют несколько или даже очень много факторов:
и наша сегодняшняя цель состоит в том, чтобы покорить множественную регрессию. Тема не очень сложная, однако, обширная и трудоёмкая, и на этом единственном уроке я разберу самые востребованные и распространённые задачи. Итак, мы научимся:
– Быстро строить уравнение множественной линейной регрессии
в MS Excel (метод наименьших квадратов), находить основные характеристики модели и проверять её качество. Этот пункт реализован в видеоролике и будет полезен для самопроверки + тем читателям, кто не погружён в статистику, а проводит лишь прикладное исследование в какой-либо предметной области (экономике, социологии, психологии, etc).
– Выполнять детальные расчёты для двухфакторной линейной модели
, в том числе находить весь сопутствующий скарб: коэффициенты корреляции, детерминации, эластичности, бета; проверять значимость коэффициентов и всего уравнения. Помимо подробного мануала, смотрИте то же видео и ещё есть калькулятор, который позволяет не только автоматизировать расчёты, но и распечатать на чистовик готовое решение.
– И в конце статьи – краткая информация по расчётам модели с бОльшим количеством факторов. Формулы и добрые пожелания.
Чего НЕ будет? Не будет подробной теории и теоретизации; если вам нужен подобный материал, то некоторые источники я уже рекомендовал на уроке Модель однофакторной регрессии, копипаст:
Н. Ш. Кремер Б. А. Путко Эконометрика
И. И. Елисеева Эконометрика
и ещё мне понравилась нижегородская методичка ННГАСУ:
О. В. Любимцев О. Л. Любимцева Линейные регрессионные модели в эконометрике
Желающие без труда отыщут и более серьёзную литературу, как говорится, степень геморроя зависит от вашего аппетита :)
Ну а здесь будет всё (или почти всё) просто и популярно; …некоторые меня обвиняют в поверхностности, но пусть лучше материал усвоит максимальное количество читателей. Всё разберём на конкретном примере и простейшем случае, когда нам дано лишь два фактора:
Пример 82
По результатам выборочного исследования
торговых предприятий региона были получены отчётные данные за предыдущий год:

…как обычно, я не ручаюсь за правдоподобность и достоверность приведённых данных, оставляя их на совести автора методички. Но это на самом деле и не важно, у нас на повестке дня математика.
Требуется:
– обосновать и оценить влияние каждого фактора на размер чистой прибыли предприятия;
– найти уравнение двухфакторной линейной регрессии
;
– найти коэффициент множественной корреляции и детерминации;
– вычислить частные коэффициенты корреляции;
– вычислить коэффициенты эластичности;
– вычислить бета-коэффициенты;
– проверить значимость коэффициентов уравнения регрессии на уровне
;
– определить соответствующие доверительные интервалы для коэффициентов;
– проверить статистическую значимость всей модели на том же уровне
;
– спрогнозировать среднеожидаемую прибыль предприятия при
оборотах и
чел. / 1 млн. руб.
Но перед тем как решать, конечно же, нужно понять смысл предложенных показателей.
Итак, фактор
– количество оборотов оборотных средств. Что это такое? Оборотные средства – это деньги на закупку товара. Компания закупила товар и полностью продала его: таким образом, оборотные средства совершили один оборот. И предложенные в условии значения
– это количество оборотов, которые совершили оборотные средства за год. Очевидно, что чем быстрее обращаются деньги, тем больше совершается продаж и тем больше может быть прибыль предприятия. Таким образом, предполагаем прямую корреляционную зависимость прибыли предприятия
от количества оборотов оборотных средств
. Следует ещё раз заметить, что это лишь общая тенденция, а не какое-то жёсткое правило, ведь есть товары с высокой и очень низкой маржой (наценкой).
Фактор второй,
– трудоёмкость продаж. К сожалению, автор задачи не уточнил данный показатель, но, судя по всему, это среднее (за год) количество персонала, которое приходилось на один миллион выручки. Так или иначе, суть состоит в том, что чем больше людей в компании, тем больше расходы на оплату труда и тем меньше может быть её прибыль. Таким образом, предполагаем обратную корреляционную зависимость прибыли
от трудоёмкости продаж
.
Построив диаграммы рассеяния, не поленюсь:

– легко уловить, что обе зависимости близкИ к линейной.
И в самом деле, вычислим линейные коэффициенты корреляции:
– таким образом, существует сильная прямая корреляционная зависимость прибыли от количества оборотов оборотных средств;
– и сильная обратная корреляционная зависимость прибыли от трудоёмкости продаж;
Коэффициенты можно рассчитать подробно (см. по ссылке выше), но в данном случае это «проходные» вычисления, поэтому используем стандартную экселевскую функцию:
= КОРРЕЛ(выделяем мышкой массив признака-фактора; выделяем массив
) и жмём Enter.
Теперь нам нужно совместить обе причины в единой модели и построить выборочное уравнение двухфакторной линейной регрессии
. Но не всё так просто. Для того чтобы модель множественной регрессии была качественной и вообще вменяемой, должны выполняться ряд условий. Во-первых, признаки-факторы должны быть некоррелированы. Вычислим коэффициент линейной корреляции между ними:
– таким образом, корреляция между факторами весьма слабА и это очень хорошо. А логика здесь простА – если факторы сильно коррелированы (что называют мультиколлинеарностью), то один из них просто не имеет смысла включать в модель.
И, во-вторых, для линейной модели должны выполняться условия Гаусса-Маркова. Проверка этих условий – это отдельная большая тема, требующая местами кропотливых вычислений. Если у вас серьёзное исследование, то изучИте её более подробно (например, с помощью рекомендованной выше литературы) и воспользуйтесь специализированными статистическими программами. Ну а мы будем решать задачу в учебном режиме (по принципу «дано задание – нужно решить») и рассмотрим саму технику вычислений.
Коэффициенты уравнения регрессии
найдём методом наименьших квадратов – как решение системы:

Заполним расчётную таблицу, в нижней строке «подобьём» суммы:

Таким образом, получаем систему:

Систему решим по формулам Крамера, определители рассчитаем с помощью функции =МОПРЕД(выделяем область три на три) приложения MS Excel.
Вычислим главный определитель системы:
, значит, система имеет единственное решение.

В результате, искомое уравнение регрессии: ![]()
Полученное уравнение показывает, что с ростом оборота оборотных средств на 1 оборот (при неизменной трудоёмкости) прибыль увеличивается в среднем на 22,044 млн. руб., а с увеличением трудоемкости продаж на 1 чел. / млн. руб. (при неизменном обороте) – прибыль уменьшается в среднем на 3,9084 млн. руб.
Как видите, сделанный вывод аналогичен выводу, который мы сделали для уравнения линейной регрессии с одним фактором. И многие показатели также будут похожи, в том числе и методика их быстрого расчёта – самое время посмотреть кино:
Как быстро найти уравнение множественной регрессии? (Ютуб), и на Рутубе
Вы без труда сможете повторить все действия! – открываем экселевский файл и решаем! Достаточно будет «черновых» расчётов, не таких красивых, как в видео. А у кого совсем нет времени и / или желания оформлять задание, есть калькулятор, который не только автоматически выполняет расчёты, но и ставит нужные выводы!
Вычислим коэффициент множественной корреляции
– он показывает силу совокупного влияния факторов
на результат
. Технически это можно реализовать несколькими способами.
Чаще всего для расчёта использует найденные выше пАрные коэффициенты корреляции:
, сведённые в симметричную матрицу
:

И коэффициент множественной корреляции можно рассчитать по формуле:
, где
– определитель матрицы парных коэффициентов линейной корреляции, а
– определитель её факторной части (без «игрековой» строки и столбца). Это общая формула (не только для двух, но и для бОльшего количества факторов).
В нашей задаче:

! Здесь и далее я буду местами пренебрегать знаком
.
В результате:
– таким образом, прибыль предприятий очень сильно зависит от предложенных в задаче факторов.
Здесь используем ту же шкалу Чеддока с той поправкой, что коэффициент множественной корреляции принимает значения
и не показывает направление зависимости (ибо факторы могут оказывать разнонаправленное действие, как в нашем случае):

Если фактора два, то формулу можно выразить в более человеческом виде:)
– именно такой вариант употребим в массовой практике.
Вычислим коэффициент множественной детерминации:
– таким образом, в рамках построенной модели 93,3% вариации прибыли обусловлено числом оборотов оборотных средств и показателем трудоёмкости продаж. Остальные
вариации объясняются факторами, не учтёнными в модели.
Коэффициент множественной детерминации также можно вычислить другим, более содержательным способом, о котором я рассказал на уроке Однофакторная регрессия. Здесь подход такой же:
, где
– общая сумма квадратов, а
– остаточная сумма квадратов.
Найдём среднее значение признака-результата
млн. руб. и заполним расчётную таблицу:

Таким образом,
, в результате чего получаем тот же результат:
, с тем же выводом. Ну а для желающих понять или освежить в памяти смысл выполненных действий, ещё раз приведу ссылку на урок об однофакторной регрессии. Только сейчас случай двухфакторный, с тем же принципиальным подходом.
Вычислим частные коэффициенты корреляции. Что это такое, и чем они отличаются от парных коэффициентов
? Дело в том, что любой фактор опосредованно включает в себя (как правило) влияние других факторов, и это учитывается в парных коэффициентах. И в рамках модели множественной регрессии целесообразно исключить такое влияние, чтобы оценить «чистый» вклад каждого фактора в результат. Что и выражается частными коэффициентами корреляции
«Очистим» 1-й фактор от влияния 2-го:
– таким образом, при устранении влияния трудоёмкости продаж чистая прибыль предприятий очень сильно зависит от числа оборотов оборотных средств.
И, наоборот, «очистим» 2-й фактор от опосредованного влияния 1-го:
таким образом, при устранении влияния фактора оборотов оборотных средств чистая прибыль предприятий сильно зависит от трудоёмкости продаж.
Кроме того, можно найти частные коэффициенты детерминации и сделать вывод об «очищенном» процентном вкладе каждого фактора в результат.
Но повторюсь в который раз, что все эти выводы делаются в рамках построенной модели и не являются какой-то «абсолютной истиной».
Вернёмся к полученному уравнению регрессии
и посмотрим на его коэффициенты при факторных переменных. Как мы видим, коэффициент
по модулю больше коэффициента
, но это ещё не значит, что 1-й фактор оказывает бОльшее влияние на результат, чем 2-й фактор. Это лишь номинальные значения. Истинная же весомость факторов рассчитывается с помощью относительных показателей – коэффициентов средней эластичности и бета-коэффициентов, о смысле которых я рассказал ещё в начальной школе. Здесь всё аналогично.
Для расчёта этих и некоторых других показателей нам потребуется найти средние значения признаков:
и их исправленные стандартные отклонения:
![]()
Отклонения можно рассчитать подробно (см. по ссылке выше), я же использовал экселевскую функцию =СТАНДОТКЛОН(массив значений выборки), которая возвращается исправленные стандартные отклонения; в новой версии Экселя эта функция модифицирована: =СТАНДОТКЛОН.В(массив значений выборки).
Вычислим коэффициенты средней эластичности:
– таким образом, при увеличении оборотов оборотных средств на 1% (при неизменной трудоёмкости продаж) чистая прибыль увеличивается в среднем на 1,6%.
– таким образом, при увеличении трудоёмкости продаж на 1% (при неизменных оборотах) чистая прибыль уменьшается в среднем на 0,6%.
И как мы видим, прибыль действительно более чувствительна к изменению 1-го фактора, однако всё же не настолько, насколько можно было подумать, глядя на коэффициенты
.
Вычислим бета-коэффициенты:
– таким образом, при увеличении оборотов оборотных средств на одно стандартное отклонение (при неизменной трудоёмкости продаж) чистая прибыль увеличивается примерно на 0,69 своего стандартного отклонения.
– таким образом, при увеличении трудоёмкости продаж на одно стандартное отклонение (при неизменных оборотах) чистая прибыль уменьшается примерно на 0,46 своего стандартного отклонения.
Что ещё раз подтверждает бОльшую весомость 1-го фактора.
Проверим значимость коэффициентов уравнения регрессии на уровне значимости
При этом рассмотрим лишь ключевые факторные коэффициенты
.
Алгоритм такой же, как и в однофакторной модели. Но сначала повторим краткую суть предстоящих действий. Дело в том, что уравнение
получено по результатам выборки. Но существует генеральная совокупность торговых предприятий региона и генеральное уравнение
. И возникает вопрос, насколько полученные выборочные значения
далеки от истинных значений
? Насколько можно доверять выборочным результатам? (тем более выборка малА). Для проверки статистической значимости полученных значений используем аппарат статистических гипотез.
1) Проверим значимость коэффициента
. Рассмотрим нулевую гипотезу
– о том, что соответствующий коэффициент генерального уравнения
равен нулю. По существу, это означает, что полученный выборочный результат
обусловлен случайностью (малой выборкой, в частности) и на самом деле чистая прибыль не зависит от количества оборотов оборотных средств.
В качестве конкурирующей рассмотрим
– гипотезу о том, что линейная корреляционная зависимость прибыли от оборотов существует.
Для проверки гипотезы
на уровне значимости
используем статистический критерий
, где
– значение выборочного коэффициента при 1-й факторной переменной, а
– его стандартная ошибка. Случайная величина
имеет распределение Стьюдента с количеством степеней свободы
, где
– количество факторов модели. Их у нас два, а посему
.
Для уровня значимости
и количества степеней свободы
по соответствующей таблице либо с помощью Экселя (пункт 10в) находим критическое значение двусторонней области
.
Найдём наблюдаемое значение критерия
. Если оно попадёт в «красную» область (
либо
), то нулевая гипотеза отвергается в пользу альтернативной; если же
, то оснований отвергать нулевую гипотезу на данном уровне значимости – нет.

Вычислим стандартную ошибку коэффициента, учитывая, что нас
-факторная модель:

Наблюдаемое значение критерия:
– поэтому на уровне значимости
гипотезу
отвергаем в пользу конкурирующей гипотезы
.
Вывод: коэффициент
статистически значимо отличен от нуля, и полученное значение вряд ли объяснимо случайными факторами.
2) Аналогично проверяем статистическую значимость коэффициента
, гипотезу
против конкурирующей гипотезы
.
Вычислим стандартную ошибку 2-го коэффициента:

и наблюдаемое значение критерия:
– поэтому на уровне значимости
гипотезу
отвергаем в пользу конкурирующей гипотезы
.
Вывод: коэффициент
статистически значим.
Определим соответствующие доверительные интервалы.
Для первого коэффициента:

(млн. руб.) – таким образом, с доверительной вероятностью
данный интервал накроет истинное значение генерального коэффициента
.
И аналогично для второго коэффициента:

(млн. руб.) – таким образом, с доверительной вероятностью
данный интервал накроет истинное значение генерального коэффициента ![]()
Интервалы получились грубые, конечно, ибо выборка малА.
Проверим статистическую значимость всего выборочного уравнения регрессии
. Этот вопрос эквивалентен вопросу о проверке значимости выборочного коэффициента множественной детерминации
.
Рассмотрим гипотезу
– о том, что генеральный коэффициент множественной детерминации равен нулю, иными словами факторы модели вообще никак не влияют на прибыль компаний. И альтернативное утверждение
гласит о том, что такое влияние есть.
Для проверки гипотезы используем статистический критерий
, где
– значение выборочного коэффициента множественной детерминации (которое от исследования к исследованию случайно), а
– количество факторных (причинных) переменных. В нашей модели фактора два:
, поэтому критерий принимает вид
. Эта случайная величина имеет распределение Фишера (
-распределение) с количеством степеней свободы
.
Для того же уровня значимости
и количества степеней свободы
по соответствующей таблице или с помощью расчётного макета (пункт 12) определяем критическое значение критерия: ![]()
Теперь вычислим наблюдаемое значение критерия. Если окажется что
(красная область) то гипотезу
на уровне значимости
отвергаем; если же
, то отвергать её – оснований нет:

В нашей задаче:
– таким образом, на уровне значимости
гипотезу
отвергаем в пользу конкурирующей гипотезы
.
Вывод: коэффициент множественной детерминации
статистически значим, а значит, статистически значимо и уравнение
.
И немного лирики, спрогнозируем среднеожидаемую прибыль предприятия при
оборотах и трудоёмкости
чел. / 1 млн.:
млн. руб.
В заключение урока краткая информация о том, как рассчитать модель множественной регрессии с бОльшим количеством факторов. Пусть признак-результат зависит, например, от трёх показателей
. На первом шаге нужно составить симметричную матрицу парных коэффициентов линейной корреляции:

Важнейшим условием качества модели является слабая попарная коррелированность факторов (достаточно близкие к нулю значения
). В серьёзных исследованиях, кроме того, следует проверить условия Гаусса-Маркова, но это большая и обстоятельная тема, которую я оставил за кадром.
Коэффициенты регрессии
находим как решение системы:

СравнИте её с системой двухфакторной модели и уловИте закономерность в коэффициентах. Да, столбцов в расчётной таблице будет побольше, но всё подъёмно, тестовые расчёты у меня заняли порядка 15 минут.
Коэффициент множественной детерминации удобно рассчитать по формуле:
, где
– определитель матрицы коэффициентов парной корреляции (см. выше), а
– определитель её факторной части (без последней строки и столбца).
Следует сказать, что у этого коэффициента есть недостаток. Дело в том, что при включении в модель любых дополнительных факторов, в том числе малозначимых или вовсе посторонних, значение
безвариантно возрастёт. И поэтому для контроля ситуации рассчитывают скорректированный коэффициент множественной детерминации:
, где
– количество факторов модели.
Теперь при добавлении явно «плохого» фактора, значение
даже уменьшится. Одним из критериев качества модели является тот факт, что значения
достаточно близки к единице и не сильно отличаются друг от друга.
Для коэффициентов частной корреляции тоже есть свои формулы, но них я не останавливаюсь, как на второстепенных. А с коэффициентами эластичности и бета-коэффициентами проблем вообще никаких – просто добавляется дополнительный коэффициент:
![]()
Вывод по каждому коэффициенту делается с оговоркой, что два других фактора неизменны.
Аналогичная ситуация в проверке значимости коэффициентов, просто проверяется ещё 3-й коэффициент.
И на посошок всё-таки общие формулы для линейной модели с «эм» факторами
, корреляционная матрица:

и система линейных уравнений в матричной форме:

…вроде нигде не ошибся, перепроверьте!
И я вас поздравляю! И себя тоже. Курс математической статистики на МатПрофи завершён. У него была непростая судьба – по разным обстоятельствам его создание растянулось на несколько лет. Но это свершилось, и мы здесь…. И я вам желаю всегда доводить важные дела до конца. Всего наилучшего!
Автор: Емелин Александр
Высшая математика для заочников и не только >>>
(Переход на главную страницу)
Высшая математика – просто и доступно!
Наш форум, библиотека и блог:


Повторяем школьный курс
Карта сайта



© Copyright