15. Общая, групповые, внутригрупповая и межгрупповая дисперсия. Правило сложения дисперсий
…из соображений гуманности сразу весь список :) Тема не самая простая, а точнее, кропотливая, но я научу вас БЫСТРО находить все перечисленные дисперсии, а также расскажу, что они означают и для чего нужны. Для освоения данного урока нужно понимать, что такое дисперсия и группировка данных(предыдущая статья) и уметь выполнять несложные расчёты. Впрочем, всё кратко повторим по ходу пьесы, и я немедленно начинаю разбирать материал:
Пример 59
По данным Примера 55 рассчитать общую, групповые, внутригрупповую и межгрупповую дисперсию
Напоминаю, что в той задаче нам были даны относительные показатели металлоёмкости станков (т/кВт):
и по исходным данным мы сразу вычислили общую среднюю:
т/кВт
Общая дисперсия – показатель не новый, и её мы уже неоднократно рассчитывали ранее. Для этого нужно найти квадраты отклонений вариант от общей средней:
вычислить их сумму и разделить её на объём совокупности:
Вычисления удобно проводить в Экселе, и чуть позже будет ролик по этой теме, буквально минут за 5 разгромим всю задачу.
Общая дисперсия характеризуетмеру рассеяния значений относительно общей средней . Чем дисперсия больше, тем дальше разбросаны от средней, и наоборот, чем дисперсия меньше, тем они к средней ближе.
Теперь вычислим групповые дисперсии. Для этого, очевидно, нужно разбить совокупность на группы, при этом группировку можно выполнить разными способами. В Примере 55 мы упорядочили варианты по возрастанию и провели удачную равнонаполненную группировку:
В результате получилось 5 групп объёмом , по которым мы рассчитали групповые средние:
И как вы правильно догадались, у нас будет 5 групповых дисперсий. По каждой группе своя. Для этого нужно рассчитать квадраты отклонений от СВОИХ групповых средних:
Тушеваться не надо, в Экселе мы эти вычисления выполним в несколько щелчков, и если вам не терпится посмотреть, как это происходит, то можно сразу перейти к видеоролику (см. ниже).
Таким образом, групповые дисперсии:
Групповая дисперсия характеризует меру разброса значений группы относительно групповой средней. В нашем примере наименьшей получилась дисперсия по 2-й группе: , это означает, что варианты этой группы расположены достаточно близко к . Максимальная дисперсия – в 5-й группе: , это означает, что многие варианты этой группы расположены достаточно далеко от .
Следующая дисперсия:
внутригрупповая дисперсия – это средняя, а точнее средневзвешенная арифметическая групповых дисперсий:
И внимательный читатель заметил, что для нахождения внутригрупповой дисперсии не обязательно рассчитывать групповые дисперсии, ибо:
,
т.е. достаточно просуммировать числа нижней строки вышеприведённой таблицы.
Внутригрупповая дисперсияхарактеризуетсреднюю (средневзвешенную) вариацию значений по группам. Должен сказать, что название «внутригрупповая» не совсем удачное и часто вызывает путаницу, в немалом количестве источников под ним понимают групповую дисперсию, и это тоже вполне себе логично. И посему точнее звучит «средняя из групповых».
И, наконец, ещё одна дисперсия :)
Рассмотрим общую среднюю и групповые средние .
Межгрупповая дисперсия – это дисперсия групповых средних относительно общей средней:
Для компактности удобно оформить небольшую расчётную табличку:
Таким образом:
Межгрупповая дисперсия характеризуетмеру разброса групповых средних относительно общей средней. Чем эта дисперсия больше, тем дальше расположены групповые средние (многие из них) относительно общей средней .
Для общей, внутригрупповой и межгрупповой дисперсий справедливо так называемое правило сложение дисперсий:
, то есть общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсии.
Примечание: в различных источниках встречаются разные обозначения этих дисперсий, и, кроме того, слагаемые правой части могут быть переставлены.
Проверим, всё ли мы правильно подсчитали:
– получено верное равенство с точностью до погрешности округлений, таким образом, все дисперсии найдены верно.
Ну а теперь смотрим видео о том, как быстро расправиться со всем этим безобразием:
И после изучения технической стороны вопроса вникнем в СМЫСЛ этих дисперсий.
Как отмечалось выше, общая дисперсия характеризует меру вариации всей совокупности. И здесь есть такой элементарный вопрос: а почему варианты вообще разные, почему значения варьируются? Очевидно, они варьируются под действием ряда ФАКТОРОВ (как неслучайных, так и случайных). Таким образом, общая дисперсия учитывает все причины (факторы), которые обуславливают вариацию. Так в примере со станками разная металлоёмкость обусловлена различными типами станков, разными «поколениями» оборудования, разными условиями эксплуатации и, скорее всего, и другими причинами. И общая дисперсия учитывает ВСЕ эти факторы.
Теперь смотрим на правило сложения дисперсий:
, то есть, общая дисперсия включает в себя внутригрупповую и межгрупповую дисперсию.
Межгрупповая дисперсия характеризуетвариацию,обусловленную фактором, который лёг в основу группировки.
Внутригрупповая дисперсия отражает вариацию, обусловленную другими факторами.
И даже если мы сгруппировали данные формально (как в нашем примере), то в основе группировки всё равно лежит некоторый группировочный фактор. Ибо числа-то в группах разные и тому есть причина! Условно предположим, что станки разбиты на 5 групп по их «поколениям» – от новейших до «древнейших». Тогда межгрупповая дисперсия отражает вариацию, обусловленную этим фактором (тем фактом, что станки принадлежат разным «поколениям»). А внутригрупповая дисперсия объясняется другими факторами.
Возникает вопрос: как оценить СУЩЕСТВЕННОСТЬ ВЛИЯНИЯ фактора, который лёг в основу группировки? Ответ очевиден: чем больше межгрупповая дисперсия , тем сильнее влияние группировочного фактора. И для оценки существенности влияния рассчитывают эмпирический коэффициент детерминации (причинности), равный отношениюмежгрупповой дисперсии к дисперсии общей: (– греческая буква «эта»)
Этот коэффициент характеризует долю вариации, объяснённую группировочным фактором.
В нашей задаче:
Таким образом, 85% вариации металлоёмкости объясняется тем фактом, что станки принадлежат разным «поколения», и оставшаяся часть вариации (15%) объясняется другими причинами.
Следует отметить, что это всего лишь одна из математических моделей. В том смысле, что мы можем рассмотреть другой группировочный фактор, провести новую группировку, подсчитать дисперсии и, возможно, тоже получить высокий коэффициент детерминации. И в этом не будет противоречия, ибо второй фактор по своей сути или через «перекрёстную взаимосвязь» может «накладываться» на фактор первой модели.
Эмпирический коэффициент детерминации изменяется в пределах , и чем он ближе к единице, тем сильнее влияние группировочного фактора на вариацию статистической совокупности. Если , то речь идёт о строгой функциональной зависимости, в этом случае , то есть внутригрупповая дисперсия (по правилу сложения) равна нулю: , и это в свою очередь означает, что в каждой группе находятся одинаковые и строго определённые значения (т.е. вариация по группам отсутствует).
Наоборот, чем ближе к нулю, тем влияние группировочного фактора меньше; математически это означает, что межгрупповая дисперсия слишком малА, а это в свою очередь значит, что групповые средние расположены очень близко к общей средней . И логика здесь простА: если мы провели группировку и получили примерно одинаковые средние по группам, то влияние фактора явно слабО. Но это ещё не значит, что сам фактор не важный ;)
Об этом и других коэффициентах мы ещё поговорим, даже отдельный урок можно организовать, а пока вернёмся к нашим дисперсиям. Как вы знаете, дисперсию можно вычислить по определению или по формуле, и поэтому в разных задачах вы можете встретить разные формулы. Кроме того, вам могут быть предложены различные вариационные ряды, например, ряды не просто с «одиночными» вариантами, но ещё и с частотами по каждой группе:
Пример 60
Распределение рабочих трех заводов одного объединения по тарифным разрядам характеризуется следующими данными:
Определить:
а) общую дисперсию;
б) дисперсию по каждому заводу (групповые дисперсии);
в) среднюю из групповых дисперсий (внутригрупповую дисперсию);
г) межгрупповую дисперсию;
д) проверить правило сложения дисперсий
е) вычислить эмпирический коэффициент детерминации и сделать вывод о том, насколько значимо различается квалификация рабочих на заводах. Иными словами, нужно выяснить, нанимали ли на какие-то заводы более квалицированных рабочих, чем на другие, или же квалификация по заводам примерно одинакова?
Числа и шаблон уже в Экселе!Вам остаётся только выполнить вычисления. По существу, в условии даны три (даже четыре) дискретных вариационных ряда, и по каждому из них требуется рассчитать среднюю и дисперсию. Дисперсии удобно найти по формуле; формулы набираем один раз и размножаем их через «Копировать - Вставить» (см. видеоролик выше). Желаю успехов!
Для интереса засёк время – все вычисления у меня заняли чуть меньше трёх минут! И это в такой-то «страшной» задаче. А эта «страшная» задача, к слову, была предложена заочникам; очников «кошмарят» гораздо хуже. Там и групп может быть с десяток и чисел больше, 100-200. В относительно «лёгких случаях» групп обычно не более пяти.
Следует отметить, что разобранные дисперсии используются и в других задачах математической статистики, где их нужно рассчитывать немного с другой спецификой. И эти задачи уже на подходе ;) На следующем уроке мы познакомимся с аналитической группировкой и гармонично разовьём тему с дисперсиями. Надеюсь, они вам понравились :)
Решения и ответы:
Пример 60.Решение: а) Заполним расчётную таблицу:
Вычислим общую среднюю: (значение вычислено примерно, но далее для простоты я буду ставить знаки «равно»). Вычислим общую дисперсию:
б) Заполним расчётную таблицу для каждой группы:
Найдем средние значения тарифного разряда по заводам (групповые средние):
Вычислим групповые дисперсии: ;
в) Вычислим среднюю из групповых (внутригрупповую) дисперсию:
г) Для нахождения межгрупповой дисперсии удобно заполнить расчётную табличку:
или расписать так:
д) Проверим правило сложения дисперсий: (см. пункт «а»), что и требовалось проверить
е) Вычислим эмпирический коэффициент детерминации: , примерно ноль.
Таким образом, средняя квалификация рабочих по заводам практически одинакова (иными словами, фактор, положенный в основу группировки (распределение рабочих по заводам) не оказывает никакого влияния – нельзя сказать, что на какой-то завод специально нанимали более квалифицированных рабочих).
! Примечание: но группировочный фактор сам по себе важен, поскольку распределяет рабочих по заводам. Только вот на тарифные разряды это практически не влияет.