– пусть проводятся независимые испытания, в каждом из которых некоторое событие может наступить с вероятностью , причём эта вероятность нам не известна. Да, на этот раз не известна.
И в канун праздника мне пришёл в голову такой пример: представьте игровой автомат или некую игру, в котором разыгрываются призы. Игрушки, зверушки и прочие товары для взрослых мандаринки. Разумеется, мы не знаем вероятность выигрыша в каждой попытке. Но её реально оценить, и оценить весьма точно, чему и посвящён этот небольшой урок.
Теперь предположим, что другая группа студентов тоже совершила серию испытаний (не обязательно 300 раз). Какой будет результат? Почти наверняка они выиграют иную долю призов, то есть, получат другую относительную частоту. И, проводя многократные серии испытаний по всему университету, мы получим множество точечных оценок, которые будут варьироваться вокруг точного значения .
Как отмечалось ранее, недостаток точечной оценки состоит в том, что она может оказаться далека от истины (особенно, при малом ) и поэтому вероятность выгодно оценить интервалом:
– который с заранее выбранной доверительной вероятностью накроет истинное значение .
Напоминаю, что («дельта») называется точностью оценки и вышесказанное можно записать компактнее:
– вероятность, того, что относительная частота отклонится от вероятности менее чем на .
И давайте оформим демонстрационную задачу формально:
Пример 27
Проводят независимые испытания с одинаковой, но неизвестной вероятностью появления события в каждом испытании. Найти доверительный интервал для оценки вероятности с надёжностью , если в испытаниях событие появилось раз.
Да, кстати, если в вашей задаче вероятность известна, то такие задачи мы разбирали на уроке о статистической вероятности с той поправкой, что вместо буквы там использовалась .
Решение: если количество испытаний достаточно велико (порядка сотни и больше) и значение не слишком малО *, то требуемый доверительный интервал можно построить по следующей приближенной формуле:
, где – относительная частота, а – коэффициент доверия, отыскиваемый из соотношения . Надеюсь, все уже знают функцию . …Но я-то всё равно напомню, даже не надейтесь :)
* Примечание: при этих условиях биномиальное распределение близкО к нормальному. Несложный вывод этой и более точной формулы можно найти, например, в учебном пособии В.Е. Гмурмана.
Вычислим относительную частоту и точность оценки . Коэффициент доверия найдём из соотношения , в данном случае:
, следовательно:
и по таблице значений функции Лапласа или с помощью расчётного макета(Пункт 5*) определяем, что этому значению функции соответствует аргумент .
Таким образом, точность оценки:
и искомый доверительный интервал:
– с вероятностью этот интервал накрывает истинную вероятность выигрыша в нашей новогодней игре.
Ответ:
Оценка получилась неплохая, но её неплохо бы улучшить, т.е. уменьшить значение , сузив тем самым интервал. Очевидно, что для этого нужно увеличить количество испытаний, что совершенно логично. Есть вариант уменьшить коэффициент доверия , но тогда упадёт и доверительная вероятность, поэтому это плохой вариант.
Обратная задача для самостоятельного решения. Тоже праздничная, о шариках. В подшипниках:
Пример 28
Из 500 поступивших на сортировку шариков для подшипников 200 попало в первую группу. В предположении о биномиальном распределении, определить:
1) доверительную вероятность того, что найденная доля шариков отклонится от вероятности попадания шарика в первую группу, менее чем на 0,03.
…все поняли эту фразу? :) …нет, я не специально – это реальная задача, поэтому разберитесь в условии!
2) доверительную вероятность того, что вероятность попадания шарика в 1-ю группу будет накрыта интервалом .
Для первой части сразу приведу готовую формулу: , где аргумент функции Лапласа – не что иное, как коэффициент доверия , и расчётный макет(Пункт 5) вам в помощь. А вот вторая часть – творческая, в ней предложен несимметричный относительно доверительный интервал.
Краткое решение с комментариями в конце урока.
И ещё один сюрприз состоит в том, что эта статья получилась короткой – это подарок для вас, это подарок для меня, и сейчас мы разберём ещё одну важную и интересную вариацию рассматриваемой задачи, которая касается как раз количества испытаний:
Пример 29
Проверив изделий, обнаружили, что изделий первого сорта. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю первосортных изделий с точностью до 0,01?
Сразу вычислим относительную частоту и для исследовательского интереса найдём вероятность , с которой истинное значение накрывается столь узким интервалом .
Примечание: параметр – есть вероятность того, что наугад извлечённое изделие окажется первосортным, его также называют генеральной долей (изделий высшего сорта) и чаще обозначают буквой .
Используем формулу . В данном случае:
– ну, и, конечно, такое кислое значение никуда не годится – тут уж проще монетку подбросить, чем всё это считать :)
Поэтому в задаче и требуется обеспечить надёжность , и решение проводится по той же формуле:
– откуда следует отыскать – объём выборки, обеспечивающий столь высокую доверительную вероятность.
теперь технически удобно возвести обе части в квадрат:
и найти искомый объём выборки:
– тут логично округлить в бОльшую сторону.
Итак, для того, чтобы с уверенностью 95% определить долю первого сорта с точностью до 0,01, нужно проверить, ответ: 8068 изделий
И если проверять изделия вручную, то это, конечно, многовато. Поэтому в подобном случае лучше поступиться точностью оценки , и для исследовательского интереса я предлагаю вам те же значения , для которых нужно построить доверительный интервал, который с вероятностью накроет истинную долю первосортных изделий.
Пример 28. Решение: вычислим относительную частоту и обозначим через неизвестную вероятность того, что шарик попадёт в 1-ю группу.
1) Используем формулу . В данном случае , таким образом:
– вероятность того, что, что значение будет отличаться от менее чем на .
Иными словами, интервал с вероятностью накрывает истинное значение .
2) Предложенный доверительный интервал не симметричен относительно относительной частоты и имеет вид: , где .
Запишем левостороннюю точность оценки: и найдём соответствующий коэффициент доверия:
.
По таблице значений функции Лапласа:
– левосторонняя доверительная вероятность.
Аналогично для правой стороны:
– правосторонняя доверительная вероятность.
Таким образом, двусторонняя доверительная вероятность составляет:
– иными словами с такой вероятностью интервал накрывает истинное значение .
Ответ: а) , б)
К Примеру 29: Решение: построим доверительный интервал:
Из соотношения найдём:
, откуда следует, что .
Вычислим точность оценки:
– как видите, точность вполне удовлетворительна.
Таким образом:
– с вероятностью 95% можно утверждать, что этот интервал накрывает истинное значение генеральной доли первосортных изделий.