22. Модель однофакторной регрессии.
Индекс детерминации и индекс корреляции

По доброй традиции сразу разберёмся с терминами. Однофакторная регрессия и пАрная регрессия – это синонимы. С частным (линейным) случаем этой модели мы уже имели дело ранее. Так, в Примере 67 речь шла о корреляционной зависимости суммарной успеваемости (признак-результат) от количества прогулов (признак-фактор) за некоторый период времени. В рамках этой модели рассматривается один фактор, а посему её называют однофакторной. С другой стороны, признаков два, а значит, модель можно назвать и пАрной.

На предыдущих занятиях мы строили уравнения линейной регрессии, причём материал был рассмотрен в популярном стиле – для самого широкого круга читателей. И, возможно, вам вполне хватит уроков:

19. Линейный коэффициент корреляции
20. Уравнение линейной регрессии и
21. Проверка значимости линейной модели – да, даже это рассмотрели.

И сейчас 22-й урок, где я разберу математический смысл однофакторной регрессии, при этом изложенные ниже факты и методы решения работают как в линейном, так и в нелинейном случае! Схема универсальна. После чего мы, конечно, потренируемся в построении нелинейных моделей. Вы их долго-долго ждали и, наконец, дождались!

Конкретная задача и знакомая выборка, приступаем:

Пример 73

Имеются выборочные данные по студентам: – количество прогулов за некоторый период времени и – суммарная успеваемость за этот период:

Требуется:

1) высказать предположение о наличии и направлении корреляционной зависимости признака-результата от признака-фактора и построить диаграмму рассеяния;

2) анализируя диаграмму рассеяния, сделать вывод о форме зависимости;

3) найти уравнение регрессии на ;

4) вычислить индекс детерминации и индекс корреляции;

5) проверить значимость выборочного уравнения регрессии на уровне значимости ;

6) найти среднюю ошибку аппроксимации.

По каждому пункту сделать выводы

Пункты 1-3 уже выполнены в Примере 67, и я конспективно приведу ключевые результаты. В ходе решения было высказано предположение о наличии обратной корреляционной зависимости успеваемости от количества прогулов, что подтвердилось диаграммой рассеяния:

Эмпирические точки имеют тенденцию располагаться вдоль прямой, и поэтому корреляционная зависимость, вероятно, близкА к линейной. Далее методом наименьших квадратов мы нашли уравнение линейной регрессии, которое наилучшим образом приближает выборочные данные:

Вопрос: как оценить качество модели? Иными словами, насколько удачно линейная функция приближает эмпирические точки? На этот вопрос мы ответили с помощью линейного коэффициента корреляции и коэффициента детерминации. Однако это лишь частные показатели. Дело в том, что существует общий подход и универсальные показатели, которые годятся как в линейном, так и в нелинейном случае:

4) Найдём индекс детерминации и индекс корреляции.

Но прежде вникнем в математическую суть регрессионной модели. Предположим, что в нашем распоряжении есть данные только о суммарной успеваемости студентов за некоторый период времени:

– Иванов;
– Петров;
– Сидоров;
…
– Попова.

Вычислим среднюю успеваемость по выборке:
балла.

Совершенно понятно, что отдельно взятые значения успеваемости варьируются относительно среднего значения:

Я не нарисовал ось , так как пока мы рассматриваем единственный признак – успеваемость. Кстати, все точки можно было отложить прямо на оси , но для наглядности пусть будет так.

Как оценить степень рассеяния значений относительно ? …Если вы затрудняетесь с ответом, то это, конечно, «двойка»! Меру разброса значений относительно средней характеризует дисперсия:

С геометрической точки зрения, сумма – это сумма квадратов хаки-отклонений на рисунке выше. …Все поняли эту фразу? Хаки – это цвет такой. И это не «каки» :) Кстати, а зачем возводить в квадрат? Это мы тоже разбирали, когда знакомились с понятием дисперсии: дело в том, что отклонения могут быть как положительными, так и отрицательными, и просто так их просуммировать не получится (они взаимоуничтожатся). Чтобы преодолеть эту неприятность и подсчитать меру вариации – их и возводят в квадраты.

Промежуточные вычисления удобно оформлять таблицей:

Сначала нашли сумму значений (левая нижняя ячейка), затем рассчитали , заполнили правый столбец и нашли дисперсию . Технически вычисления проще проводить в Экселе, и если вы до сих пор не знаете, как это делать, посмотрите, например, этот ролик.

Теперь содержательный вопрос: а почему успеваемость вообще варьируется? На то есть множество причин, как неслучайных, так и случайных. У всех разные способности, кто-то учится прилежнее, кто-то прогуливает, кому-то повезло с темой / билетом, кому-то не повезло и так далее. Причин очень много, и дисперсия учитывает ВСЕ причины. А посему её называют общей дисперсией и иногда прямо так и обозначают: . В качестве эквивалентной меры вариации часто рассматривают сумму , которую называют общей суммой квадратов.

В нашей задаче предложен всего лишь один фактор, который влияет на успеваемость – количество прогулов:

Именно поэтому модель и называют однофакторной, прозанудствую ещё раз. Разумеется, можно рассмотреть и какой-нибудь другой фактор, влияющий на успеваемость, и даже несколько факторов, но вот у нас даны только прогулы.

Далее нами был визуально установлен линейный характер зависимости, и из решения системы мы нашли уравнение линейной регрессии (см. Пример 67, пункт 3).

В рамках построенной модели вся вариация успеваемости делится на две части:

– факторная (зелёный цвет на рис. ниже) – это та часть, которая объяснИма уравнением регрессии (фактором прогулов);

– и остаточная (красный цвет) – часть, которая регрессией не объясняется.

Так, при количестве прогулов отклонение (хаки-отрезок слева вверху на рисунке ниже) обусловлено всеми причинами, повлиявшими на успеваемость. При этом точка делит данный отрезок на две части:

– зелёный участок – это часть вариации, объяснённая уравнением регрессии;

– красный участок – это остаточная часть вариации, которая уравнением НЕ объяснена. И в самом деле, если значение обусловлено количеством прогулов, то на добавочный остаток приходятся другие факторы.

Напоминаю, что метод наименьших квадратов состоит в том, чтобы подобрать ТАКУЮ прямую, чтобы сумма квадратов остатков была наименьшей. Грубо говоря, оптимальная (синяя) прямая должна проходить как можно ближе к эмпирическим точкам:

Таким образом, речь заходит о факторной сумме квадратов: (сумма квадратов зелёных отклонений) и об остаточной сумме квадратов (сумма квадратов красных отклонений).

Соответственно, получаем факторную дисперсию и остаточную дисперсию , при этом общая («игрековая») дисперсия успеваемости – раскладывается на дисперсию, объяснённую уравнением регрессии, и дисперсию остаточную. По сути, это частный случай общей, межгрупповой и внутригрупповой дисперсии. Да, обращаю внимание, что дисперсии у нас выборочные (коль скоро они получены по выборке студентов) И аналогичное равенство, естественно, справедливо и для соответствующих сумм квадратов: .

Очевидно, что чем длиннее зелёные отрезки, тем короче красные – тем больше значение и меньше . Тем ближе эмпирические точки расположены к линии регрессии, и тем выше качество построенной модели. И мерилом такого качества является индекс детерминации:

– это отношение выборочной факторной дисперсии к выборочной общей дисперсии. Следует заметить, что для расчёта этого индекса дисперсии находить не обязательно, достаточно ограничиться отношением сумм соответствующих квадратов:

– именно такой вариант встречается в большинстве источников.

Индекс детерминации изменяется в пределах и показывает долю вариации признака-результата, которая обусловлена признаком-фактором. …Если не очень понятно, то скоро дойдём до конкретных вычислений и выводов.

В предельном случае все эмпирические точки расположены на линии регрессии, и речь идёт о строгой функциональной зависимости, в этом случае признак-фактор модели полностью объясняет всю вариацию признака результата: . И противоположный случай – здесь факторная дисперсия равна нулю и общая дисперсия полностью объяснИма неучтёнными в модели причинами: . При этом линия регрессии параллельна оси и отражает тот факт, что при изменении значений «икс» среднеожидаемое значение «игрек» остаётся постоянным. Иными словами, фактор, положенный в основу модели, не оказывает никакого влияния на результат.

И ещё раз обращаю внимание, что я освещаю общий подход – в той или иной задаче линия регрессия может быть не только прямой, но и кривой линией.

Ну а теперь вернёмся к нашей задаче и конкретным вычислениям. Общая сумма квадратов и общая дисперсия успеваемости уже рассчитана выше, и индекс детерминации можно найти двумя путями: непосредственно вычислить факторную сумму квадратов и отношение . Либо найти остаточную сумму квадратов , после чего из равенства выразить и получить то же самое значение: .

Второй вариант более популярен, но мы рассмотрим оба, заодно и проверочка будет.

Способ первый:

И на всякий случай расчёты для : сначала находим регрессионное значение , затем – соответствующий факторный квадрат:
. Здесь и далее могут быть некоторые погрешности по причине округлений; со знаками «равно» и «примерно равно» я тоже не очень строг, поэтому не судите строго.

Факторная сумма квадратов найдена в таблице выше , осталось вычислить индекс детерминации:

– таким образом, в рамках построенной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами.

Индекс детерминации совпал с линейным коэффициентом детерминации, который мы нашли в Примере 67, и я напомню, что сделанный вывод не является какой-то «абсолютной истиной», это всего лишь оценка в рамках построенной модели. А модель может быть подобрана как удачно, так и посредственно, а то и вовсе неудачно.

Табличка второго способа похожа:

– за исключением последнего столбца, в котором рассчитываются квадраты остатков, так, для получаем: .

Таким образом, остаточная сумма квадратов и индекс детерминации:

– с тем же самым результатом и выводами.

Для качественной оценки тесноты связи используют индекс корреляции:

– есть квадратный корень из индекса детерминации.

Индекс корреляции тоже изменяется в пределах и для оценки качества модели используют уже знакомую многим шкалу Чеддока, вот один из её вариантов:

В нашей задаче:

– таким образом, существует сильная корреляционная зависимость – суммарной успеваемости от – количества прогулов.

Результат совпал по модулю с линейным коэффициентом корреляции , который мы получили в ходе решения Примера 67. И, разумеется, вы поняли, что индекс корреляции не отражает направление зависимости (прямая или обратная). Но зато он годится для оценки качества как линейной, так и нелинейной регрессии! – рАвно, как и индекс детерминации, вычисленный по рассмотренной выше методике.

Индекс детерминации и индекс корреляции – это частный случай эмпирического коэффициента детерминации и эмпирического корреляционного отношения соответственно.

5) Оценим значимость построенной регрессионной модели, в данном случае линейной. Эту задачу мы уже решили на предыдущем уроке, но сейчас я разберу её в общем ключе.

Кратко напомню постановку вопроса: все вычисления выше и соответствующие результаты мы получили на основе выборочных данных, причём всего лишь по студентам. Но существует генеральная совокупность студентов, а значит, и генеральное уравнение регрессии с генеральным индексом детерминации . И возникает вопрос: насколько можно доверять полученному выборочному уравнению и значению ? – они хорошо характеризуют генеральное уравнение и индекс ? Или не надёжно? – например, по причине малой выборки.

Проверка значимости выборочного уравнения регрессии эквивалентна проверке значимости выборочного индекса детерминации. …Кстати, почему? Ну хотя бы по той причине, что факторная сумма квадратов в числителе формулы порождена линией регрессии (вспоминаем недавний рисунок).

Итак, на уровне значимости (согласно условию) проверим нулевую гипотезу:

– о том, что генеральный индекс детерминации равен нулю, то есть количество прогулов вообще никак (0%) не влияет на успеваемость.

– против конкурирующей гипотезы – о том, что такое влияние есть.

Для проверки гипотезы используем статистический критерий , где – выборочная факторная сумма квадратов, – выборочная остаточная сумма квадратов, а – количество факторных (причинных) переменных

В нашей модели фактор единственный (количество прогулов) , следовательно, критерий принимает вид . Эта случайная величина* имеет распределение Фишера (-распределение) с количеством степеней свободы .

* Эта величина случайна, поскольку в разных исследованиях мы будем получать разные значения сумм квадратов, даже при том же объёме выборки.

Для уровня значимости и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия:

Теперь нужно вычислить наблюдаемое значение критерия. Если окажется что (красная область) то гипотезу на уровне значимости отвергаем. Если , то отвергать её – оснований нет:

В нашей задаче:
– таким образом, на уровне значимости гипотезу отвергаем в пользу конкурирующей гипотезы .

На практике факторную сумму квадратов часто не рассчитывают, обходясь остаточной и общей суммой: (из равенства ), а если найден индекс детерминации, то можно провести вычисления и через него:
– это наиболее распространённый вариант.

Вывод: выборочный индекс детерминации статистически значимо отличается от нуля, следовательно, статистически значимо и выборочное уравнение .

! Но: из этого ещё не следует, что построенная модель является качественной. Речь идёт лишь о её статистической значимости. …Не очень понятно? Для понимания можно привести такую фразу: успеваемость студента статистически значимо отличается от нуля. Но это может быть как студент-отличник, так и студент-удовлетворительник, так и почти уже не студент (но с какими-то шансами).

Вот и в нашей модели так – несмотря на её статистическую значимость, ещё не факт, что она сильно хорошА. И прояснить ситуацию нам поможет:

6) Средняя ошибка аппроксимации:

, которая показывает, на сколько процентов в среднем эмпирические значения отличаются от соответствующих значений , вычисленных по уравнению регрессии.

Разъясню подробнее. Так, количеству прогулов соответствует эмпирическая успеваемость в баллов. А по полученному уравнению регрессии мы получили балла. И возникает интерес оценить разницу , для этого её логично соотнести с эмпирическим значением: и тут сразу удобно выразить результат в процентах: . Таким образом, отклонение составляет 13,2% от эмпирического значения , что, к слову, прилично (но ещё не до неприличия).

И формула подсчитывает средний процент таких сопоставлений по всей совокупности. Знак модуля нужен по той причине, что отклонения , да и сами эмпирические значения в общем случае могут быть отрицательными.

Совершенно понятно, что чем меньше средняя ошибка аппроксимации , тем лучше. Хорошим результатом считаются значения ниже 8-10%. В некоторых источниках встречается оценка в 15%, но это, конечно, многовато; в качестве компромисса будем считать такой результат удовлетворительным. Впрочем, это всё общие рассуждения – в некоторых задачах требуется повышенная точность, а в других она не критична.

Проведём вычисления для нашей задачи, технически предыдущую таблицу удобно снабдить дополнительным столбцом:

В результате и средняя ошибка аппроксимации:
– таким образом, эмпирические и соответствующие регрессионные значения различаются в среднем на 16,83%.

Вывод: качество модели удовлетворительно.

Готово.

И такие «скользкие» результаты – не случайность, дело в том, что регрессионная модель чувствительна к так называемым «выбросам» – единичным* точкам (* то есть, их мало), которые далекИ от регрессионной прямой.

Подобные «выбросы» необоснованно увеличивают общую погрешность и искажают итоговые результаты. И поэтому аномальные значения стараются исключить из рассмотрения (а студента, очевидно, из института), достигая более или менее однородного состава совокупности. Кроме того, чтобы линейная модель была качественной, требуется выполнение условий Гаусса-Маркова, с которыми можно ознакомиться в многочисленных источниках, в частности тех, которые указаны ниже.

Я же ограничусь практической стороной вопроса и принципом «дана задача – нужно решать», невзирая на теоретические условия, предъявляемые к модели линейной пАрной регрессии. Желающим ознакомиться с этой моделью более подробно и более строго рекомендую следующую литературу:

Н. Ш. Кремер Б. А. Путко Эконометрика
И. И. Елисеева Эконометрика
и ещё мне понравилась нижегородская методичка ННГАСУ:
О. В. Любимцев О. Л. Любимцева Линейные регрессионные модели в эконометрике

Но, должен предупредить, что везде (или почти везде) разные обозначения, впрочем, это только закалит юного эконометриста :)

И пояснение по поводу «Эконометрики» – это название появилось исторически, по той причине, что регрессионные модели часто строили (и строят) в экономических исследованиях. Да, эконометрика считается самостоятельной дисциплиной, но с таким же успехом она могла бы называться какой-нибудь Соционометрикой. Ибо приложений, помимо экономических, просто ~~тьма~~ свет. Таким образом, то, что мы сейчас изучаем, логичнее считать частью математической статистики.

И мы продолжаем нарабатывать практику:

Пример 73*

В результате выборочного исследования признака , зависящего от , получено пар значений:

Требуется:

1) методом наименьших квадратов найти уравнение линейной регрессии на ;

2) вычислить индекс детерминации и индекс корреляции;

3) проверить значимость полученной модели на уровне значимости ;

4) вычислить среднюю ошибку аппроксимации;

5) построить диаграмму рассеяния и линию регрессии.

По каждому пункту сделать выводы.

Это пример для самостоятельного исследования, все числа уже в Экселе и вам осталось быстренько провести вычисления. Не ленимся! В образце, с которым можно свериться внизу страницы, я придерживался наиболее распространённой схемы решения, а именно, пункт 1 найден с помощью стандартного алгоритма, который освещён в статье Метод наименьших квадратов. В пункте 2 для нахождения индексов рассчитана остаточная сумма квадратов, как я уже отмечал, это наиболее ходовой способ.

И после этого важного примера можно перейти к изучению нелинейной регрессии.

Желаю успехов!

Решения и ответы:

Пример 73*. Решение:

1) Методом наименьших квадратов найдём уравнение линейной регрессии на . Заполним расчётную таблицу:

Коэффициенты уравнения найдём как решение системы:

Систему решим по формулам Крамера:
, значит, система имеет единственное решение.

! Не забываем подставить полученные значения в каждое уравнение системы, выполнив тем самым проверку.

Таким образом, искомое уравнение регрессии:

Данное уравнение показывает, что с увеличением значения «икс» на 1 единицу соответствующее значение «игрек» увеличивается в среднем на 19,733 единицы. Очевидно, что корреляционная зависимость прямая («чем больше, тем больше»).

2) Найдём индекс детерминации и индекс корреляции. Вычислим среднее значение признака-результата и заполним расчётную таблицу:

В результате, общая сумма квадратов , остаточная сумма квадратов и индекс детерминации:
– таким образом, в рамках построенной модели вариация признака на 78,38% обусловлена изменением признака . Остальные 21,62% вариации обусловлены причинами, не учтёнными в модели.

Вычислим индекс корреляции:
– таким образом, существует сильная корреляционная зависимость признака-результата от фактора .

3) Оценим значимость построенной регрессионной модели на уровне значимости . А именно, проверим нулевую гипотезу – о том, что генеральный индекс детерминации равен нулю, против конкурирующей гипотезы: .

Используем статистический критерий , где – значение выборочного индекса детерминации.

Для уровня значимости и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия:

Вычислим наблюдаемое значение критерия:

Наблюдаемое значение критерия попало в критическую область :

– таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .

Вывод: индекс детерминации статистически значимо отличен от нуля, следовательно, статистически значимо и выборочное уравнение .

4) Вычислим среднюю ошибку аппроксимации:

– таким образом, эмпирические и соответствующие регрессионные значения различаются в среднем почти в два раза, что, конечно, ни в какие ворота.

Вывод: качество модели неудовлетворительно.

5) Построим диаграмму рассеяния и линию регрессии по двум точкам :

И, как мы видим, точки имеют тенденцию располагаться, скорее, вдоль некоторой кривой. Таким образом, здесь целесообразно использовать нелинейную регрессию, подобрав удачную аппроксимирующую кривую.

Автор: Емелин Александр

Высшая математика для заочников и не только >>>

(Переход на главную страницу)

Как можно отблагодарить автора?

22. Модель однофакторной регрессии.Индекс детерминации и индекс корреляции

22. Модель однофакторной регрессии.
Индекс детерминации и индекс корреляции