mathprofi.ru

  Карта сайта


Сглаживание временнОго ряда


Продолжаем изучать динамические ряды. Или, что то же самое, ряды динамики, временнЫе ряды, хронологические ряды. На всякий случай вспомним, что это такое :) Это упорядоченная по времени последовательность значений некоторого показателя, например:

В первой строке указаны временнЫе промежутки, обычно они имеют равную длину, во второй – уровни ряда, в нашем примере – количество произведённой продукции в некоторых единицах. Представьте, что это молоко, самое страшное, с чем вас могут «застукать». Или фисташки. Чтобы было интереснее решать задачу :) …Да, и запОмните термин, кто ещё не успел запомнить, уровни – это циферки во второй строке.

На предыдущем уроке мы рассмотрели показатели интенсивности изменения уровней ряда, базисные, цепные, средние. Говоря простым языком, это то – насколько резво меняются значения. Так, во 2-м году производство молока выросло на  единицы по отношению к 1-му году (абсолютный прирост) или в  раз (коэффициент роста). …Хватит улыбаться. В процентах увеличение составило  (темп прироста).

Но, помимо сих и иже с ними показателей, к уровням ряда можно подойти с другой стороны. А именно, проанализировать тенденцию – вот производство продукции, оно преимущественно растёт с течением времени или уменьшается? Или остаётся примерно одним и тем же?

Другая компонента – это возможная цикличность уровней. Так, если мы исследуем продажу мороженого по месяцам, то совершенно ясно, что к летнему сезону они будут возрастать, а осенью падать. И это, очевидно, повторяется циклами, из года в год. Другой яркий пример – количество вызов такси в зависимости от времени суток. Цикличности, разумеется, может и не быть – так, скорее всего, обстоят дела в нашем примере с годовыми интервалами. …Ну если только циклично меняется мода на молоко из поклонения в поколение :)

И, наконец, в жизни есть место случайности. Уровни ряда заранее не определены, и всегда могли оказаться как побольше, так и поменьше фактически зафиксированных значений. Это обусловлено воздействием случайных факторов, заранее непредсказуемых и непрогнозируемых.

К слову о птичках. Ряд динамики лишь формально отражает изменение уровней с течением времени, но ничего нам не говорит о ФАКТОРАХ, влияющих на это изменение. И в самом деле, глядя на числа в таблице, мы не можем сказать, что именно явилось причиной именно такой динамики производства. Однако, даже за неимением информации, все факторы можно разделить на три большие группы, что мы уже сделали только что. Есть факторы, которые формируют тенденцию, цикличность и случайные колебания уровней ряда.

На практике, прежде всего, обычно исследуют тенденцию, и давайте сразу зарядим задачу:

Пример 1

Имеются следующие данные о деятельности предприятия:

Требуется исследовать тенденцию ряда:

1) методом укрупнения интервалов;

2) графическим способом;

3) методом скользящей трёхзвенной средней;

4) методом аналитического выравнивания по прямой.

По результатам пунктов 2-4 выполнить общий чертёж и спрогнозировать производство продукции в 11-м году. Ну, и конечно, сделать выводы по каждому пункту.

Решение: 1) Окидывая взглядом числа, сразу трудно сделать вывод о преимущественной тенденции: мы видим как убывание, так и возрастание значений. И самый быстрый способ анализа  – это укрупнить интервалы, при этом желательно задействовать все уровни. Ещё с советских времён у нас на слуху пятилетний план.

Вычислим суммарное производство за 1-ю пятилетку, не откажу себе в удовольствии пощёлкать по кнопкам своего старого калькулятора:
 ед.

и за 2-ю пятилетку:
 ед.

Кратко и сурово: производство увеличилось.

2) Другой, простой и эффективный способ исследования – это построить график и посмотреть, что происходит. …Прямо как в той истории из истории: чтобы сбить самолёт-«невидимку» (stealth) , нужно посмотреть в небо и его сбить :)

По оси абсцисс откладываем годы, по оси ординат – уровни ряда:

И, в общем-то всё понятно: производство, пусть со спадами, но преимущественно растёт.

3) Метод скользящей средней состоит в расчёте средних значений нескольких соседних уровней (звеньев), на практике популярно брать по три штуки.

Вычислим среднее арифметическое первых трёх уровней:
 ед.,

среднее арифметическое 2-го, 3-го и 4-го уровней:
 ед.,

 3-го, 4-го и 5-го уровней:
 ед.,

… и так далее,

и наконец, 8-го, 9-го и 10-го уровней:
ед.

Вычисления удобно проводить в Экселе, а результаты оформлять таблицей:

Изобразим на том же чертеже найденные средние значения и соединим их ломаной (зелёный цвет):

Это и есть сглаживание ряда динамики скользящей трёхзвенной средней. Скользящая средняя сглаживает колебания уровней и позволяет более чётко увидеть тенденцию.

Существуют и другие разновидности скользящих средних, с разным количеством звеньев, разными подходами к вычислению средних значений, соединённые гладкими линиями, и так далее, вариаций масса.

4) Проведём аналитическое выравнивание по прямой. С этим заданием мы уже сталкивались в других темах, и, переводя на обывательский язык, вновь поясню суть: нам нужно подобрать такую прямую, которая проходила бы как можно ближе к большинству точек. Обычно используют метод наименьших квадратов, и решение идёт по шаблону.

Заполним расчётную таблицу, в правом столбце подобьём суммы:

О том, как это быстро подсчитать в Экселе, есть видео (копия тут), впрочем, может быть, ещё запилю отдельный ролик.

Коэффициенты «а» и «бэ» искомого уравения  найдём как решение системы:
, где  – количество уровней, ну и нужные суммы рассчитаны:

Систему решим по формулам Крамера, и это самая настоящая нетленка. Вычислим главный определитель системы:
, значит, система имеет единственное решение.

Таким образом, искомое уравнение регрессии:

Уравнение показывает, что каждый год производство продукции в среднем увеличивалось примерно на 5,485 единиц.

Найдём две точки для построения прямой:
 ед.,
 ед. – вот заодно и прогноз на 11-й год получился, и добавим, как модно говорить, линию тренда на чертёж:

Формально, функция  – есть зависимость производства от времени, однако опять же подчеркнём, что на количество произведённой продукцию, разумеется, влияют другие факторы, «оставшиеся за кадром».

При желании или по необходимости можно найти линейный коэффициент корреляции и оценить статистическую значимость модели. Говоря проще выяснить, лажа получилась в 4-м пункте или нет. Впрочем, давайте выясним, даже интересно стало. Вычислим средние значения:

и стандартные отклонения:

промежуточные вычисления, их можно оформить 5-й строкой в таблице выше:

и:

В результате:
 – коэффициент корреляции положителен, достаточно близок к единице, таким образом, существует сильная прямая зависимость количества произведённой продукции от времени (хотя фактически, конечно, не от него).

Проверим статическую значимость коэффициента. Для этого рассмотрим нулевую гипотезу о том, что коэффициент корреляции на самом деле равен нулю  (то есть полученный результат  статистически случаен) – против альтернативной гипотезы  на уровне значимости . Для проверки гипотезы используем статистический критерий .

Для уровня значимости  и количества степеней свободы  найдём критическое значение двусторонней критической области:

 – это значение можно определить по таблице критических точек распределения Стьюдента (ориентируемся по верхней строке) либо с помощью соответствующей функции Экселя (пункт 10в).

…«Накладка» тут получилась с буквой «тэ малое», к временнОму ряду, она, естественно, отношения не имеет. Ну да ладно, мелочи жизни.

Вычислим наблюдаемое значение критерия:
, таким образом, на уровне значимости  гипотезу  отвергаем в пользу гипотезы .

Иными словами, значение  статистически значимо и вряд ли объяснимо случайными факторами (малым количество наблюдений, например).

Из статистической значимости коэффициента корреляции автоматически следует значимость коэффициента  и статистическая значимость всего уравнения регрессии . То есть, с точки зрения математической статистики,  тенденция (рост) почти наверняка есть, и полученное уравнение хорошо характеризует динамику, в частности пригодно для прогнозирования, чем мы уже воспользовались ранее.

Следует добавить, что линейная модель – далеко не единственная, существуют и нелинейные, в чём мы опять же уже потренировались. Всё зависит от условия той или иной задачи.

Но довольно лирики, следующая задача – самостоятельно:

Пример 2

Имеются данные о товарообороте маркетплейса за 12 месяцев отчетного года:

…Экономисты тут поинтересуются, сопоставимы ли цены, но задание техническое, инфляцией пренебрежем. Да и числа я тоже сильно округлил везде, чтобы от таблиц не рябило в глазах, сейчас важно отработать само решение.

Требуется проанализировать тенденцию динамического ряда:

1) методом укрупнения интервалов, 2) графически, 3) методом трёхзвенной скользящей средней, 4) методом аналитического выравнивания по прямой.

По результатам пунктов 2-4 выполнить чертёж.

Факультативно, а даже и не факультативно: 5) найдите коэффициент линейной детерминации и проверьте статистическую значимость уравнения регрессии на уровне значимости .

Ну и, конечно, сделать краткие выводы – эй, ребята, изучающие датасайенс, так что же там происходит с маркетплейсом? И предугадывая леность студента, все числа, как повелось, уже забиты в Эксель :)

Решаем, думаем, сверяемся, и тема временнЫх рядов далеко не закончена… Только аппетит появился, даже можно сказать :)

Пример 2. Решение: 1) Проведём анализ тенденции методом укрупнения интервалов, напрашивается поквартально:

И очевидно, что товарооборот во 2-м полугодии несколько увеличился.

2) Изобразим уровни ряда на чертеже (синие точки на рисунке ниже). Из анализа их расположения трудно сделать вывод о какой-либо тенденции, скорее, они  колеблются около некоторого постоянного значения.

3) Выполним сглаживание ряда трёхзвенной скользящей средней. Для этого рассчитаем средние значения по тройкам смежным интервалам:

– добавим на чертёж соответствующие точки и соединим их ломаной линией (зелёный цвет). И из внешнего вида ломаной опять же затруднительно сделать вывод о тенденции; можно предположить некоторый рост, но выглядит он неубедительно.

4) Выполним аналитическое выравнивание по прямой, используем метод наименьших квадратов. Заполним расчётную таблицу, в правом столбце подсчитаем суммы:

Коэффициенты уравения  найдём как решение системы:
, где , в данном случае:

Систему решим методом Крамера:
, значит, система имеет единственное решение.

Таким образом, искомое уравнение:

Найдём две точки для построения прямой:

и добавим её на чертёж:

Уравнение показывает, что каждый месяц товарооборот  в среднем увеличивается примерно на 0,0717 ден. ед. Соответствующая прямая показывает небольшой рост, но можно ли доверять полученным результатам с точки зрения статистики?

5) Проверим статистическую значимость модели. Найдём коэффициент детерминации. Для этого вычислим средние значения:
,
и стандартные отклонения:

Таким образом, коэффициент корреляции:

и коэффициент детерминации:
, то есть в рамках построенной модели только 30,75% вариации товарооборота объяснимо временнЫм фактором (точнее, фактором стоЯщим за ним).

5) Проверим статистическую значимость коэффициента детерминации, а значит, уравнения  и суть – всей модели. А именно, гипотезу о том, что на самом деле  (то есть значение  статистически случайно)  против гипотезы  на уровне значимости . Используем критерий   Фишера.

Для заданного уровня значимости и количества степеней свободы  с помощью соответствующей функции Экселя (пункт 12) определим критическое значение критерия:

Вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости  нет оснований отвергать гипотезу .

Таким образом, с точки зрения статистики, построенная модель является «плохой» и её крайне нежелательно использовать, в частности для прогнозирования. Но самое главное, нет оснований  утверждать, что тенденция вообще существует; несмотря на то, что мы видим небольшой рост товарооборота, нельзя утверждать, что он обусловлен системными (постоянно действующими) факторами. Возможно, причина тому сезонность или, например, разовое увеличение рынка сбыта.

Автор: Емелин Александр


 Блог Емелина Александра

Высшая математика для заочников и не только >>>

(Переход на главную страницу)

Как можно отблагодарить автора?