22. Модель однофакторной регрессии.
Индекс детерминации и индекс корреляции
По доброй традиции сразу разберёмся с терминами. Однофакторная регрессия и пАрная регрессия – это синонимы. С частным (линейным) случаем этой модели мы уже имели дело ранее. Так, в Примере 67 речь шла о корреляционной зависимости суммарной успеваемости (признак-результат) от количества прогулов (признак-фактор) за некоторый период времени. В рамках этой модели рассматривается один фактор, а посему её называют однофакторной. С другой стороны, признаков два, а значит, модель можно назвать и пАрной.
На предыдущих занятиях мы строили уравнения линейной регрессии, причём материал был рассмотрен в популярном стиле – для самого широкого круга читателей. И, возможно, вам вполне хватит уроков:
19. Линейный коэффициент корреляции
20. Уравнение линейной регрессии и
21. Проверка значимости линейной модели – да, даже это рассмотрели.
И сейчас 22-й урок, где я разберу математический смысл однофакторной регрессии, при этом изложенные ниже факты и методы решения работают как в линейном, так и в нелинейном случае! Схема универсальна. После чего мы, конечно, потренируемся в построении нелинейных моделей. Вы их долго-долго ждали и, наконец, дождались!
Конкретная задача и знакомая выборка, приступаем:
Пример 73
Имеются выборочные данные по
студентам:
– количество прогулов за некоторый период времени и
– суммарная успеваемость за этот период:
![]()
Требуется:
1) высказать предположение о наличии и направлении корреляционной зависимости признака-результата
от признака-фактора
и построить диаграмму рассеяния;
2) анализируя диаграмму рассеяния, сделать вывод о форме зависимости;
3) найти уравнение регрессии
на
;
4) вычислить индекс детерминации и индекс корреляции;
5) проверить значимость выборочного уравнения регрессии на уровне значимости
;
6) найти среднюю ошибку аппроксимации.
По каждому пункту сделать выводы
Пункты 1-3 уже выполнены в Примере 67, и я конспективно приведу ключевые результаты. В ходе решения было высказано предположение о наличии обратной корреляционной зависимости успеваемости от количества прогулов, что подтвердилось диаграммой рассеяния:

Эмпирические точки имеют тенденцию располагаться вдоль прямой, и поэтому корреляционная зависимость, вероятно, близкА к линейной. Далее методом наименьших квадратов мы нашли уравнение линейной регрессии, которое наилучшим образом приближает выборочные данные:

Вопрос: как оценить качество модели? Иными словами, насколько удачно линейная функция приближает эмпирические точки? На этот вопрос мы ответили с помощью линейного коэффициента корреляции и коэффициента детерминации. Однако это лишь частные показатели. Дело в том, что существует общий подход и универсальные показатели, которые годятся как в линейном, так и в нелинейном случае:
4) Найдём индекс детерминации и индекс корреляции.
Но прежде вникнем в математическую суть регрессионной модели. Предположим, что в нашем распоряжении есть данные только о суммарной успеваемости студентов за некоторый период времени:
– Иванов;
– Петров;
– Сидоров;
…
– Попова.
Вычислим среднюю успеваемость по выборке:
балла.
Совершенно понятно, что отдельно взятые значения успеваемости
варьируются относительно среднего значения:

Я не нарисовал ось
, так как пока мы рассматриваем единственный признак – успеваемость. Кстати, все точки можно было отложить прямо на оси
, но для наглядности пусть будет так.
Как оценить степень рассеяния значений
относительно
? …Если вы затрудняетесь с ответом, то это, конечно, «двойка»! Меру разброса значений относительно средней характеризует дисперсия:

С геометрической точки зрения, сумма
– это сумма квадратов хаки-отклонений на рисунке выше. …Все поняли эту фразу? Хаки – это цвет такой. И это не «каки» :) Кстати, а зачем возводить в квадрат? Это мы тоже разбирали, когда знакомились с понятием дисперсии: дело в том, что отклонения
могут быть как положительными, так и отрицательными, и просто так их просуммировать не получится (они взаимоуничтожатся). Чтобы преодолеть эту неприятность и подсчитать меру вариации – их и возводят в квадраты.
Промежуточные вычисления удобно оформлять таблицей:

Сначала нашли сумму значений
(левая нижняя ячейка), затем рассчитали
, заполнили правый столбец и нашли дисперсию
. Технически вычисления проще проводить в Экселе, и если вы до сих пор не знаете, как это делать, посмотрите, например, этот ролик.
Теперь содержательный вопрос: а почему успеваемость вообще варьируется? На то есть множество причин, как неслучайных, так и случайных. У всех разные способности, кто-то учится прилежнее, кто-то прогуливает, кому-то повезло с темой / билетом, кому-то не повезло и так далее. Причин очень много, и дисперсия
учитывает ВСЕ причины. А посему её называют общей дисперсией и иногда прямо так и обозначают:
. В качестве эквивалентной меры вариации часто рассматривают сумму
, которую называют общей суммой квадратов.
В нашей задаче предложен всего лишь один фактор, который влияет на успеваемость – количество прогулов:

Именно поэтому модель и называют однофакторной, прозанудствую ещё раз. Разумеется, можно рассмотреть и какой-нибудь другой фактор, влияющий на успеваемость, и даже несколько факторов, но вот у нас даны только прогулы.
Далее нами был визуально установлен линейный характер зависимости, и из решения системы
мы нашли уравнение линейной регрессии
(см. Пример 67, пункт 3).
В рамках построенной модели вся вариация успеваемости делится на две части:
– факторная (зелёный цвет на рис. ниже) – это та часть, которая объяснИма уравнением регрессии (фактором прогулов);
– и остаточная (красный цвет) – часть, которая регрессией не объясняется.
Так, при количестве прогулов
отклонение
(хаки-отрезок слева вверху на рисунке ниже) обусловлено всеми причинами, повлиявшими на успеваемость. При этом точка
делит данный отрезок на две части:
– зелёный участок
– это часть вариации, объяснённая уравнением регрессии;
– красный участок
– это остаточная часть вариации, которая уравнением НЕ объяснена. И в самом деле, если значение
обусловлено количеством прогулов, то на добавочный остаток
приходятся другие факторы.
Напоминаю, что метод наименьших квадратов состоит в том, чтобы подобрать ТАКУЮ прямую, чтобы сумма квадратов остатков
была наименьшей. Грубо говоря, оптимальная (синяя) прямая должна проходить как можно ближе к эмпирическим точкам:

Таким образом, речь заходит о факторной сумме квадратов:
(сумма квадратов зелёных отклонений) и об остаточной сумме квадратов
(сумма квадратов красных отклонений).
Соответственно, получаем факторную дисперсию
и остаточную дисперсию
, при этом общая («игрековая») дисперсия успеваемости
– раскладывается на дисперсию, объяснённую уравнением регрессии, и дисперсию остаточную. По сути, это частный случай общей, межгрупповой и внутригрупповой дисперсии. Да, обращаю внимание, что дисперсии у нас выборочные (коль скоро они получены по выборке студентов) И аналогичное равенство, естественно, справедливо и для соответствующих сумм квадратов:
.
Очевидно, что чем длиннее зелёные отрезки, тем короче красные – тем больше значение
и меньше
. Тем ближе эмпирические точки расположены к линии регрессии, и тем выше качество построенной модели. И мерилом такого качества является индекс детерминации:
– это отношение выборочной факторной дисперсии к выборочной общей дисперсии. Следует заметить, что для расчёта этого индекса дисперсии находить не обязательно, достаточно ограничиться отношением сумм соответствующих квадратов:
– именно такой вариант встречается в большинстве источников.
Индекс детерминации изменяется в пределах
и показывает долю вариации признака-результата, которая обусловлена признаком-фактором. …Если не очень понятно, то скоро дойдём до конкретных вычислений и выводов.
В предельном случае
все эмпирические точки расположены на линии регрессии, и речь идёт о строгой функциональной зависимости, в этом случае признак-фактор модели полностью объясняет всю вариацию признака результата:
. И противоположный случай
– здесь факторная дисперсия равна нулю и общая дисперсия полностью объяснИма неучтёнными в модели причинами:
. При этом линия регрессии параллельна оси
и отражает тот факт, что при изменении значений «икс» среднеожидаемое значение «игрек» остаётся постоянным. Иными словами, фактор, положенный в основу модели, не оказывает никакого влияния на результат.
И ещё раз обращаю внимание, что я освещаю общий подход – в той или иной задаче линия регрессия может быть не только прямой, но и кривой линией.
Ну а теперь вернёмся к нашей задаче и конкретным вычислениям. Общая сумма квадратов
и общая дисперсия
успеваемости уже рассчитана выше, и индекс детерминации можно найти двумя путями: непосредственно вычислить факторную сумму квадратов
и отношение
. Либо найти остаточную сумму квадратов
, после чего из равенства
выразить
и получить то же самое значение:
.
Второй вариант более популярен, но мы рассмотрим оба, заодно и проверочка будет.
Способ первый:

И на всякий случай расчёты для
: сначала находим регрессионное значение
, затем – соответствующий факторный квадрат:
. Здесь и далее могут быть некоторые погрешности по причине округлений; со знаками «равно» и «примерно равно» я тоже не очень строг, поэтому не судите строго.
Факторная сумма квадратов найдена в таблице выше
, осталось вычислить индекс детерминации:
– таким образом, в рамках построенной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами.
Индекс детерминации совпал с линейным коэффициентом детерминации, который мы нашли в Примере 67, и я напомню, что сделанный вывод не является какой-то «абсолютной истиной», это всего лишь оценка в рамках построенной модели. А модель может быть подобрана как удачно, так и посредственно, а то и вовсе неудачно.
Табличка второго способа похожа:

– за исключением последнего столбца, в котором рассчитываются квадраты остатков, так, для
получаем:
.
Таким образом, остаточная сумма квадратов
и индекс детерминации:
– с тем же самым результатом и выводами.
Для качественной оценки тесноты связи используют индекс корреляции:
– есть квадратный корень из индекса детерминации.
Индекс корреляции тоже изменяется в пределах
и для оценки качества модели используют уже знакомую многим шкалу Чеддока, вот один из её вариантов:

В нашей задаче:
– таким образом, существует сильная корреляционная зависимость
– суммарной успеваемости от
– количества прогулов.
Результат совпал по модулю с линейным коэффициентом корреляции
, который мы получили в ходе решения Примера 67. И, разумеется, вы поняли, что индекс корреляции не отражает направление зависимости (прямая или обратная). Но зато он годится для оценки качества как линейной, так и нелинейной регрессии! – рАвно, как и индекс детерминации, вычисленный по рассмотренной выше методике.
Индекс детерминации и индекс корреляции – это частный случай эмпирического коэффициента детерминации и эмпирического корреляционного отношения соответственно.
5) Оценим значимость построенной регрессионной модели, в данном случае линейной. Эту задачу мы уже решили на предыдущем уроке, но сейчас я разберу её в общем ключе.
Кратко напомню постановку вопроса: все вычисления выше и соответствующие результаты мы получили на основе выборочных данных, причём всего лишь по
студентам. Но существует генеральная совокупность студентов, а значит, и генеральное уравнение регрессии
с генеральным индексом детерминации
. И возникает вопрос: насколько можно доверять полученному выборочному уравнению
и значению
? – они хорошо характеризуют генеральное уравнение
и индекс
? Или не надёжно? – например, по причине малой выборки.
Проверка значимости выборочного уравнения регрессии эквивалентна проверке значимости выборочного индекса детерминации. …Кстати, почему? Ну хотя бы по той причине, что факторная сумма квадратов в числителе формулы
порождена линией регрессии (вспоминаем недавний рисунок).
Итак, на уровне значимости
(согласно условию) проверим нулевую гипотезу:
– о том, что генеральный индекс детерминации равен нулю, то есть количество прогулов вообще никак (0%) не влияет на успеваемость.
– против конкурирующей гипотезы
– о том, что такое влияние есть.
Для проверки гипотезы используем статистический критерий
, где
– выборочная факторная сумма квадратов,
– выборочная остаточная сумма квадратов, а
– количество факторных (причинных) переменных
В нашей модели фактор единственный (количество прогулов)
, следовательно, критерий принимает вид
. Эта случайная величина* имеет распределение Фишера (
-распределение) с количеством степеней свободы
.
* Эта величина случайна, поскольку в разных исследованиях мы будем получать разные значения сумм квадратов, даже при том же объёме выборки.
Для уровня значимости
и количества степеней свободы
по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия: ![]()
Теперь нужно вычислить наблюдаемое значение критерия. Если окажется что
(красная область) то гипотезу
на уровне значимости
отвергаем. Если
, то отвергать её – оснований нет:

В нашей задаче:
– таким образом, на уровне значимости
гипотезу
отвергаем в пользу конкурирующей гипотезы
.
На практике факторную сумму квадратов часто не рассчитывают, обходясь остаточной и общей суммой:
(из равенства
), а если найден индекс детерминации, то можно провести вычисления и через него:
– это наиболее распространённый вариант.
Вывод: выборочный индекс детерминации
статистически значимо отличается от нуля, следовательно, статистически значимо и выборочное уравнение
.
! Но: из этого ещё не следует, что построенная модель является качественной. Речь идёт лишь о её статистической значимости. …Не очень понятно? Для понимания можно привести такую фразу: успеваемость студента статистически значимо отличается от нуля. Но это может быть как студент-отличник, так и студент-удовлетворительник, так и почти уже не студент (но с какими-то шансами).
Вот и в нашей модели так – несмотря на её статистическую значимость, ещё не факт, что она сильно хорошА. И прояснить ситуацию нам поможет:
6) Средняя ошибка аппроксимации:
, которая показывает, на сколько процентов в среднем эмпирические значения
отличаются от соответствующих значений
, вычисленных по уравнению регрессии.
Разъясню подробнее. Так, количеству прогулов
соответствует эмпирическая успеваемость в
баллов. А по полученному уравнению регрессии мы получили
балла. И возникает интерес оценить разницу
, для этого её логично соотнести с эмпирическим значением:
и тут сразу удобно выразить результат в процентах:
. Таким образом, отклонение
составляет 13,2% от эмпирического значения
, что, к слову, прилично (но ещё не до неприличия).
И формула
подсчитывает средний процент таких сопоставлений по всей совокупности. Знак модуля нужен по той причине, что отклонения
, да и сами эмпирические значения
в общем случае могут быть отрицательными.
Совершенно понятно, что чем меньше средняя ошибка аппроксимации
, тем лучше. Хорошим результатом считаются значения ниже 8-10%. В некоторых источниках встречается оценка в 15%, но это, конечно, многовато; в качестве компромисса будем считать такой результат удовлетворительным. Впрочем, это всё общие рассуждения – в некоторых задачах требуется повышенная точность, а в других она не критична.
Проведём вычисления для нашей задачи, технически предыдущую таблицу удобно снабдить дополнительным столбцом:

В результате
и средняя ошибка аппроксимации:
– таким образом, эмпирические
и соответствующие регрессионные значения
различаются в среднем на 16,83%.
Вывод: качество модели удовлетворительно.
Готово.
И такие «скользкие» результаты – не случайность, дело в том, что регрессионная модель чувствительна к так называемым «выбросам» – единичным* точкам (* то есть, их мало), которые далекИ от регрессионной прямой.

Подобные «выбросы» необоснованно увеличивают общую погрешность и искажают итоговые результаты. И поэтому аномальные значения стараются исключить из рассмотрения (а студента, очевидно, из института), достигая более или менее однородного состава совокупности. Кроме того, чтобы линейная модель была качественной, требуется выполнение условий Гаусса-Маркова, с которыми можно ознакомиться в многочисленных источниках, в частности тех, которые указаны ниже.
Я же ограничусь практической стороной вопроса и принципом «дана задача – нужно решать», невзирая на теоретические условия, предъявляемые к модели линейной пАрной регрессии. Желающим ознакомиться с этой моделью более подробно и более строго рекомендую следующую литературу:
Н. Ш. Кремер Б. А. Путко Эконометрика
И. И. Елисеева Эконометрика
и ещё мне понравилась нижегородская методичка ННГАСУ:
О. В. Любимцев О. Л. Любимцева Линейные регрессионные модели в эконометрике
Но, должен предупредить, что везде (или почти везде) разные обозначения, впрочем, это только закалит юного эконометриста :)
И пояснение по поводу «Эконометрики» – это название появилось исторически, по той причине, что регрессионные модели часто строили (и строят) в экономических исследованиях. Да, эконометрика считается самостоятельной дисциплиной, но с таким же успехом она могла бы называться какой-нибудь Соционометрикой. Ибо приложений, помимо экономических, просто тьма свет. Таким образом, то, что мы сейчас изучаем, логичнее считать частью математической статистики.
И мы продолжаем нарабатывать практику:
Пример 73*
В результате выборочного исследования признака
, зависящего от
, получено
пар значений:
![]()
Требуется:
1) методом наименьших квадратов найти уравнение линейной регрессии
на
;
2) вычислить индекс детерминации и индекс корреляции;
3) проверить значимость полученной модели на уровне значимости
;
4) вычислить среднюю ошибку аппроксимации;
5) построить диаграмму рассеяния и линию регрессии.
По каждому пункту сделать выводы.
Это пример для самостоятельного исследования, все числа уже в Экселе и вам осталось быстренько провести вычисления. Не ленимся! В образце, с которым можно свериться внизу страницы, я придерживался наиболее распространённой схемы решения, а именно, пункт 1 найден с помощью стандартного алгоритма, который освещён в статье Метод наименьших квадратов. В пункте 2 для нахождения индексов рассчитана остаточная сумма квадратов, как я уже отмечал, это наиболее ходовой способ.
И после этого важного примера можно перейти к изучению нелинейной регрессии.
Желаю успехов!
Решения и ответы:
Пример 73*. Решение:
1) Методом наименьших квадратов найдём уравнение
линейной регрессии
на
. Заполним расчётную таблицу:

Коэффициенты уравнения
найдём как решение системы:

Систему решим по формулам Крамера:
, значит, система имеет единственное решение.

! Не забываем подставить полученные значения
в каждое уравнение системы, выполнив тем самым проверку.
Таким образом, искомое уравнение регрессии:
Данное уравнение показывает, что с увеличением значения «икс» на 1 единицу соответствующее значение «игрек» увеличивается в среднем на 19,733 единицы. Очевидно, что корреляционная зависимость прямая («чем больше, тем больше»).
2) Найдём индекс детерминации и индекс корреляции. Вычислим среднее значение признака-результата
и заполним расчётную таблицу:

В результате, общая сумма квадратов
, остаточная сумма квадратов
и индекс детерминации:
– таким образом, в рамках построенной модели вариация признака
на 78,38% обусловлена изменением признака
. Остальные 21,62% вариации обусловлены причинами, не учтёнными в модели.
Вычислим индекс корреляции:
– таким образом, существует сильная корреляционная зависимость признака-результата
от фактора
.
3) Оценим значимость построенной регрессионной модели на уровне значимости
. А именно, проверим нулевую гипотезу
– о том, что генеральный индекс детерминации равен нулю, против конкурирующей гипотезы:
.
Используем статистический критерий
, где
– значение выборочного индекса детерминации.
Для уровня значимости
и количества степеней свободы
по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия: ![]()
Вычислим наблюдаемое значение критерия:
![]()
Наблюдаемое значение критерия попало в критическую область
:

– таким образом, на уровне значимости
гипотезу
отвергаем в пользу гипотезы
.
Вывод: индекс детерминации
статистически значимо отличен от нуля, следовательно, статистически значимо и выборочное уравнение
.
4) Вычислим среднюю ошибку аппроксимации:
– таким образом, эмпирические
и соответствующие регрессионные значения
различаются в среднем почти в два раза, что, конечно, ни в какие ворота.
Вывод: качество модели неудовлетворительно.
5) Построим диаграмму рассеяния и линию регрессии по двум точкам
:

И, как мы видим, точки имеют тенденцию располагаться, скорее, вдоль некоторой кривой. Таким образом, здесь целесообразно использовать нелинейную регрессию, подобрав удачную аппроксимирующую кривую.
Автор: Емелин Александр
Высшая математика для заочников и не только >>>
(Переход на главную страницу)
Высшая математика – просто и доступно!
Наш форум, библиотека и блог:


Повторяем школьный курс
Карта сайта



© Copyright