Высшая математика – просто и доступно! Если сайт упал, используйте ЗЕРКАЛО: mathprofi.net Наш форум, библиотека и блог: mathprofi.com | |||
Математические формулы,
Высшая математика для чайников, или с чего начать? Аналитическая геометрия:
Векторы для чайников
Элементы высшей алгебры:
Множества и действия над ними
Пределы:
Пределы. Примеры решений
Производные функций:
Как найти производную?
Функции и графики:
Графики и свойства ФНП:
Область определения функции Интегралы:
Неопределенный интеграл.
Дифференциальные уравнения:
Дифференциальные уравнения первого порядка
Числовые ряды:
Ряды для чайников
Функциональные ряды:
Степенные ряды
Кратные интегралы:
Двойные интегралы
Элементы векторного анализа:
Основы теории поля
Комплексный анализ:
ТФКП для начинающих
Теория вероятностей:
Основы теории вероятностей
Математическая статистика:
Математическая статистика
Не нашлось нужной задачи? Не получается пример?
Часто задаваемые вопросы Заметили опечатку / ошибку? |
23. Нелинейная регрессия. Виды и примеры решенийНа предыдущем уроке мы рассмотрели общую модель однофакторной регрессии, а также изучили линейный случай. Но им, разумеется, кухня не ограничивается, а посему тема получает логичное продолжение. Прямо сейчас вы узнаете, как подобрать вид регрессии, и, конечно же, отведаете основные блюда: Экспоненциальная регрессия (наиболее подробно, рекомендую всем) Все регрессии строятся по одному шаблону, и мы начинаем: Пример 74 В результате наблюдения за размножением бактерий были получены следующие результаты: Требуется: 1) построить диаграмму рассеяния и подобрать линию, которая эффективно приближает эмпирические данные; 2) методом наименьших квадратов найти уравнение регрессии на , выполнить чертёж; 3) вычислить индекс детерминации и индекс корреляции; 4) проверить значимость полученной модели на уровне значимости ; 5) найти среднюю ошибку аппроксимации; 6) оценить количество бактерий к 12-му и 24-му часу. По каждому пункту сделать выводы. Решение: 1) В Примере 73 мы не только построили диаграмму рассеяния по предложенным числовым данным, но и выполнили почти все пункты задания для линейного случая: Таким образом, задача состоит в том, чтобы подобрать линию (её тип), которая удачно приблизит эмпирические точки. Возможно, не наилучшим образом, но, по крайне мере, хорошо. Выбор подходящей линии и соответствующей записи уравнения регрессии называют спецификацией модели. Этот вопрос можно решить, исходя из содержательного условия задачи, и, естественно, математически. Так, размножение бактерий, насекомых, появление новых частиц в результате физической или химической реакции обычно носит экспоненциальный характер. То есть растёт по экспоненте , где и – некоторые константы. С увеличением значений «икс» наблюдается стремительный, прямо-таки «взрывной» рост «игреков», и наши опытные данные (см. рис. выше) как раз напоминают эту ситуацию. С другой стороны, подходящий тип линии выявляют прямым перебором основных графиков – методом наименьших квадратов строят оптимальную прямую, параболу, гиперболу, экспоненту и т. д., и анализируют, какая функция лучше приближает эмпирические точки. Качество приближения оценивают с помощью индекса детерминации (чем больше к единице, тем лучше) и средней ошибки аппроксимации (чем ближе к нулю, тем лучше). Но это, конечно, большой объём работы, который лучше поручить статистическим программам. Простейший перебор можно выполнить в обычном Экселе, и я даже записал небольшой ролик на эту тему (смотреть до конца!!): Итак, в нашей задаче наилучшим выбором действительно является экспонента , а конкретно . Но то было программное решение с готовым результатом, а нам-то нужно всё рассчитать подробно, чем мы сейчас и займёмся: 2) Методом наименьших квадратов найдём уравнение нелинейной, в данном случае экспоненциальной регрессии . Коэффициенты и определим из решения системы: Откуда и из каких соображений взялась эта система, можно узнать в статье Метод наименьших квадратов, ну а мы займёмся её эксплуатацией. Заполним расчётную таблицу (в нижней строке – суммы по столбцам): ! Примечание: суммы в последних двух столбцах выглядят округлёнными, но Эксель рассчитывает их более точно, поэтому в последующих вычислениях формально будут некоторые погрешности. Кроме того, довольно часто я буду пренебрегать значком , записывая строгое равенство. Таким образом, получаем систему: Систему решим по формулам Крамера. Вычислим главный определитель:
В результате, искомая экспонента: . Напоминаю, что полученное уравнение наилучшим образом приближает эмпирические точки по сравнению с любой другой экспонентой из семейства . Выполним чертёж: 3) Найдём индекс детерминации и индекс корреляции. Для этого вычислим среднее значение признака-результата и заполним расчётную таблицу, сразу с добавочным столбцом для расчёта СОА в пункте 5: – таким образом, в рамках построенной модели размножение бактерий (результат ) на 98,21% объяснено течением времени (фактором ). Остальные 1,79% вариации признака-результата обусловлены другими, не учтёнными в модели факторами. Вычислим индекс корреляции: 4) Проверим статистическую значимость построенной модели. Говоря простыми словами, нужно выяснить – а можно ли доверять полученным выборочным результатам? Или же они случайны? (по той причине, что выборка малА). Ответ на этот вопрос тут очевиден, но нужно оформить формальное решение. На уровне значимости проверим нулевую гипотезу – о том, что генеральный индекс детерминации равен нулю, против конкурирующей гипотезы: . Используем статистический критерий , где – значение выборочного индекса детерминации. В разных выборках оно будет разным, а посему – есть величина случайная (как и любой другой статистический критерий). Для уровня значимости и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия: Вычислим наблюдаемое значение критерия: – оно попало, да ещё как, в критическую область : Вывод: полученный результат статистически значим, следовательно, статистически значимо и выборочное уравнение экспоненциальной регрессии. То есть, с точки зрения статистики, получилось не фуфло. …Да, если вам не очень понятны эти танцы с бубном, то ознакомьтесь с общей моделью регрессии и линейным случаем в частности, где я рассказал, что к чему. 5) Вычислим среднюю ошибку аппроксимации: – таким образом, регрессионные значения отличаются от соответствующих эмпирических значений в среднем на 8,16%, что можно признать хорошим результатом. 6) Спрогнозируем количество бактерий к 12-му и 24-му часу: бактерий; Вот такой вот он, экспоненциальный рост. Но это не беда. Domestos, миллионы микробов умрут (с). Аналогичное задание для самостоятельного решения: Пример 75 В результате исследования получены следующие данные: 1) Методом наименьших квадратов найти уравнение гиперболической регрессии, выполнить чертёж. 2) Вычислить индекс детерминации и корреляции. 3) Проверить значимость полученной модели на уровне . 4) Найти среднюю ошибку аппроксимации. По каждому пункту сделать выводы. Система – вот: Обратите внимание, что в этой задаче сразу предложен вид регрессии, и это не случайность. Гиперболическая зависимость характерна для процессов, где есть некий предел («насыщение») – когда дальнейшее увеличение (либо уменьшение) факторной переменной практически перестаёт оказывать влияние на результат (ещё раз проанализируйте числа в таблице выше). Яркий пример есть в физике – это остывание кипятка: наиболее сильно температура падает в первый час, в течение же последующих часов она уменьшается уже незначительно. И пример с ростом: мышечная масса человека будет заметно расти с увеличением физических нагрузок, но настанет такой момент, когда этот рост практически прекратится, как ни увеличивай интенсивность и продолжительность тренировок. И здесь остаётся только «химия», к которой прибегают практически все культуристы (ни в коем случае не призыв). Рассмотрим ещё одну регрессию и ещё одну классическую задачу, снова из экономики: Пример 76 По результатам 12 лет имеются следующие данные: Требуется: 1) Методом наименьших квадратов найти функцию спроса , выполнить чертёж. 2) Вычислить индексы детерминации и корреляции и проверить значимость построенной модели на уровне . 3) Вычислить среднюю ошибку аппроксимации. + Новинка: 4) Определить коэффициент эластичности спроса. И само собой, выводы, выводы, выводы. Выводы. Но перед тем как оформлять решение, немного порассуждаем: что происходит, когда повышается цена на какой-то товар? Это зависит от того, что это за товар и ещё от некоторых факторов. Но чаще спрос (количество проданных товаров) падает, причём, падать он может разными темпами. Приступаем: 1) Составим уравнение регрессионной зависимости спроса от цены товара. Почему именно степеннАя регрессия во многих случаях удачно моделирует спрос, мы разберёмся чуть позже, после освоения технической стороны вопроса. Заполним расчётную таблицу: Коэффициенты регрессии найдём из решения системы: В нашем случае объём совокупности и: Систему решим по формулам Крамера,… а, кстати, почему всё время Крамер да Крамер? С десятичными хвостатыми дробями это наиболее удобный способ:
И коэффициент «бэ»: Таким образом, – степеннАя регрессионная зависимость количества проданных товаров от цены. Изобразим на чертеже эмпирические точки и график регрессии: 2) Вычислим индексы детерминации и корреляции. Для этого найдём среднее значение признака-результата и заполним ещё одну расчётную таблицу: – таким образом, в рамках построенной модели спрос на 70,16% зависит от изменения цены, а оставшаяся часть вариации (29,84%) спроса обусловлена факторами, не учтёнными моделью. Вычислим индекс корреляции: На уровне значимости проверим нулевую гипотезу (генеральный индекс детерминации равен нулю), против конкурирующей гипотезы . Используем статистический критерий , где – значение выборочного индекса детерминации. Для и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определим критическое значение критерия: Наблюдаемое значение критерия: – попало в критическую область: Вывод: выборочное значение статистически значимо, следовательно, статистически значимо и выборочное уравнение степеннОй регрессии. 3) Вычислим среднюю ошибку аппроксимации: – таким образом, регрессионные значения отличаются от соответствующих эмпирических значений в среднем на 8,2%, что является хорошим результатом. 4) Определим коэффициент эластичности («эпсилон»). Этот коэффициент показывает, на сколько процентов изменится значение признака результата при увеличении признака-фактора на 1%. В случае степеннОй регрессии коэффициент эластичности – постоянен и в точности равен параметру «бэ». В нашей задаче и – таким образом, при увеличении цены (значения «икс») на один процент – спрос на товар (значение «игрек») уменьшается примерно на 0,35%. Таким образом, спрос падает медленнее, чем растёт цена. Математически этот факт можно записать так: – и это означает, что такой товар неэластичен по спросу. Как правило, это вещи первой необходимости и / или товары, которые трудно заменить – соль, хлеб, некоторые лекарства, бензин, лампочки, патроны и т. п. Так, если хлеб подорожает в два раза, то спрос несколько снизится, но существенно не упадёт. Цена и объём продаж, к слову, в нашей задаче смахивают именно на хлеб. Если , то спрос падает быстрее, нежели растёт цена. Такой товар называют эластичным по спросу. Это значит, что его легко заменить или вообще отказаться от покупки. Так, если сильно подорожает мясо, то спрос на него резко упадёт – большинство людей «безболезненно» перейдут на курицу и рыбу. Некоторые станут веганами :) Ну а если в два раза подорожает золото, то большинство ювелирных магазинов просто закроется (в отличие от хлебных). Понятие эластичности, естественно, относится не только к спросу, а формально вообще к любому фактору и результату, и чёткое определение эластичности дано в начале этого пункта. Он (коэффициент) может и не иметь содержательного смысла – это зависит от условия той или иной задачи. Коэффициент эластичности можно рассчитать и для других видов регрессии – по специальной формуле, которую я привёл в статье Линейный коэффициент корреляции. Но там мы вычислили средний коэффициент эластичности, ибо почти во всех случаях эластичность зависит от значения «икс». И только степеннАя регрессия обладает тем замечательным свойством, что эластичность – есть константа для любого допустимого «икс». И гвоздь программы! – для любителей хардкора. Завершим урок параболической регрессией: Пример 77 По результатам выборочного исследования 10 хозяйств области получены следующие данные: Требуется: 1) Методом наименьших квадратов найти уравнение параболической регрессии , выполнить чертёж. 2) Вычислить индексы детерминации и корреляции и проверить значимость построенной модели на уровне . 3) Вычислить среднюю ошибку аппроксимации. 4) С помощью уравнения регрессии найти оптимальное количество удобрений , при котором среднеожидаемая урожайность будет максимальной. По каждому пункту сделать выводы. Все числа уже там, и краткий мануал. 1) Для нахождения коэффициентов регрессии нужно составить и решить следующую систему: Когда используется параболическая регрессия? Этот вид регрессии уместен там, где по логике задачи должен быть экстремум (минимум или максимум). Так, в Примере 77 логичен тот факт, что при увеличении количества удобрений урожайность сначала растёт, затем достигает максимальных значений и далее падает (т. к. нарастает вред). В Сети я нашёл довольно много примеров из медицины, но смутно понял только один – эквивалентный, когда при увеличении дозировки лекарства активность рецепторов сначала увеличивается, а затем уменьшается. …Эврика! – это ж алкоголь :) Закуска, так сказать, к поданным мной блюдам. За кадром сегодняшнего урока остался пример с логарифмическое регрессией , но там всё по шаблону, вот рабочая система: Далее по курсу коэффициент корреляции Спирмена и коэффициент корреляции Фехнера, ибо не регрессией единой живА корреляционная зависимость. Решения и ответы: Пример 75. Решение: 1) Заполним расчётную таблицу: Систему решим по формулам Крамера:
Искомое уравнение: . Изобразим на чертеже эмпирические точки и график гиперболической регрессии: По графику хорошо видно, что себестоимость единицы продукции значительно падает при увеличении объёма выпуска до 3-4 тыс. единиц. Дальнейшее увеличение объёма имеет мЕньший эффект и в районе 9-10 тысяч практически перестаёт оказывать влияние на себестоимость. 2) Вычислим среднее значение признака-результата (руб.) и заполним расчётную таблицу: Вычислим индекс детерминации: Вычислим индекс корреляции: 3) На уровне значимости проверим нулевую гипотезу – о том, что генеральный индекс детерминации равен нулю, против конкурирующей гипотезы: . Используем статистический критерий , где – значение выборочного индекса детерминации. Для уровня значимости и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия: Наблюдаемое значение критерия попало в критическую область : Вывод: выборочный индекс детерминации статистически значим, следовательно, статистически значимо и выборочное уравнение гиперболической регрессии. 4) Вычислим среднюю ошибку аппроксимации: – таким образом, разница между эмпирическими и соответствующими регрессионными значениями составляет в среднем 9,38%, что можно признать неплохим результатом. Пример 77. Решение: 1) Методом наименьших квадратов найдём уравнение параболической регрессии . Заполним расчётную таблицу: Коэффициенты регрессии найдём как решение системы: Систему решим по формулам Крамера: Все определители считаем с помощью функции =МОПРЕД() приложения MS Excel: В результате, искомое уравнение: Изобразим на чертеже эмпирические точки и линию регрессии: 2) Вычислим среднее значение урожайности (ц/г) и заполним расчётную таблицу: Вычислим индекс корреляции: На уровне значимости проверим нулевую гипотезу – о том, что генеральный индекс детерминации равен нулю, против конкурирующей гипотезы . Используем статистический критерий , где – значение выборочного индекса детерминации. Для уровня значимости и количества степеней свободы по соответствующей таблице или с помощью Расчётного макета (пункт 12) определяем критическое значение критерия: Наблюдаемое значение критерия , поэтому на уровне значимости гипотезу отвергаем в пользу гипотезы . Вывод: индекс детерминации статистически значим, следовательно, статистически значимо и выборочное уравнение параболической регрессии. 3) Вычислим среднюю ошибку аппроксимации: – таким образом, эмпирически и соответствующие регрессионные значения различаются в среднем на 5,1%, что можно признать очень хорошим результатом. 4) С помощью уравнению регрессии определим оптимальное количество удобрений и соответствующую среднеожидаемую максимальную урожайность . Найдём производную и приравняем её к нулю: Точка с координатами – есть в точности вершина параболы на чертеже выше. Следует ещё раз заметить, что это среднеожидаемая оценка, полученная по конкретному уравнению регрессии. В другой выборке будет немного другое уравнение и немного другая точка. Автор: Емелин Александр Высшая математика для заочников и не только >>> (Переход на главную страницу) Как можно отблагодарить автора? |
© Copyright Александр Емелин, mathprofi.ru, 2010-2024, сделано в Блокноте |