Центральная предельная теорема. Энциклопедия маркетинга Центральная предельная теорема понятие частоты события

Простейший вариант Центральной предельной теоремы (ЦПТ) теории вероятностей таков.

(для одинаково распределенных слагаемых). Пусть X 1 , X 2 ,…, X n , …– независимые одинаково распределенные случайные величины с математическими ожиданиями M (X i ) = m и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Тогда для любого действительного числа х существует предел

где Ф(х) – функция стандартного нормального распределения.

Эту теорему иногда называют теоремой Линдеберга-Леви .

В ряде прикладных задач не выполнено условие одинаковой распределенности. В таких случаях центральная предельная теорема обычно остается справедливой, однако на последовательность случайных величин приходится накладывать те или иные условия. Суть этих условий состоит в том, что ни одно слагаемое не должно быть доминирующим, вклад каждого слагаемого в среднее арифметическое должен быть пренебрежимо мал по сравнению с итоговой суммой. Наиболее часто используется теорема Ляпунова.

Центральная предельная теорема (для разнораспределенных слагаемых) – теорема Ляпунова . Пусть X 1 , X 2 ,…, X n , …– независимые случайные величины с математическими ожиданиями M (X i ) = m i и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Пусть при некотором δ>0 у всех рассматриваемых случайных величин существуют центральные моменты порядка 2+δ и безгранично убывает «дробь Ляпунова»:

Тогда для любого действительного числа х существует предел

где Ф(х) – функция стандартного нормального распределения.

В случае одинаково распределенных случайных слагаемых

и теорема Ляпунова переходит в теорему Линдеберга-Леви.

История получения центральных предельных теорем для случайных величин растянулась на два века – от первых работ Муавра в 30-х годах 18-го века для необходимых и достаточных условий, полученных Линдебергом и Феллером в 30-х годах 20-го века.

Теорема Линдеберга-Феллера. Пусть X 1 , X 2 ,…, X n , …, – независимые случайные величины с математическими ожиданиями M (X i ) = m i и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Предельное соотношение (1), т.е. центральная предельная теорема, выполнено тогда и только тогда, когда при любом τ>0

где F k (x ) обозначает функцию распределения случайной величины X k .

Доказательства перечисленных вариантов центральной предельной теоремы для случайных величин можно найти в классическом курсе теории вероятностей .

Для прикладной статистики и, в частности, для нечисловой статистики большое значение имеет многомерная центральная предельная теорема. В ней речь идет не о сумме случайных величин, а о сумме случайных векторов.

Необходимое и достаточное условие многомерной сходимости . Пусть F n обозначает совместную функцию распределения k -мерного случайного вектора , n = 1,2,…, и F λn . Необходимое и достаточное условие для сходимости F n к некоторой k -мерной функции распределения F состоит в том, что F λn имеет предел для любого вектора λ.

Приведенная теорема ценна тем, что сходимость векторов сводит к сходимости линейных комбинаций их координат, т.е. к сходимости обычных случайных величин, рассмотренных ранее. Однако она не дает возможности непосредственно указать предельное распределение. Это можно сделать с помощью следующей теоремы.

Теорема о многомерной сходимости. Пусть F n и F λn – те же, что в предыдущей теореме. Пусть F - совместная функция распределения k -мерного случайного вектора . Если функция распределения F λn сходится при росте объема выборки к функции распределения F λ для любого вектора λ, где F λ – функция распределения линейной комбинации , то F n сходится к F .

Здесь сходимость F n к F означает, что для любого k -мерного вектора такого, что функция распределения F непрерывна в , числовая последовательность F n сходится при росте n к числу F . Другими словами, сходимость функций распределения понимается ровно также, как при обсуждении предельных теорем для случайных величин выше. Приведем многомерный аналог этих теорем.

Многомерная центральная предельная теорема . Рассмотрим независимые одинаково распределенные k -мерные случайные вектора

где штрих обозначает операцию транспонирования вектора. Предположим, что случайные вектора U n имеют моменты первого и второго порядка, т.е.

М (U n ) = μ, D (U n ) = Σ,

где μ – вектор математических ожиданий координат случайного вектора, Σ – его ковариационная матрица. Введем последовательность средних арифметических случайных векторов:

Тогда случайный вектор имеет асимптотическое k -мерное нормальное распределение , т.е. он асимптотически распределен так же, как k -мерная нормальная величина с нулевым математическим ожиданием, ковариационной Σ и плотностью

Здесь |Σ| - определитель матрицы Σ. Другими словами, распределение случайного вектора сходится к k -мерному нормальному распределению с нулевым математическим ожиданием и ковариационной матрицей Σ.

Напомним, что многомерным нормальным распределением с математическим ожиданием μ и ковариационной матрицей Σ называется распределение, имеющее плотность

Многомерная центральная предельная теорема показывает, что распределения сумм независимых одинаково распределенных случайных векторов при большом числе слагаемых хорошо приближаются с помощью нормальных распределений, имеющих такие же первые два момента (вектор математических ожиданий координат случайного вектора и его корреляционную матрицу), как и исходные вектора. От одинаковой распределенности можно отказаться, но это потребует некоторого усложнения символики. В целом из теоремы о многомерной сходимости вытекает, что многомерный случай ничем принципиально не отличается от одномерного.

Пример. Пусть X 1 , … X n ,…– независимые одинаково распределенные случайные величины. Рассмотрим k -мерные независимые одинаково распределенные случайные вектора

Их математическое ожидание – вектор теоретических начальных моментов, а ковариационная матрица составлена из соответствующих центральных моментов. Тогда - вектор выборочных центральных моментов. Многомерная центральная предельная теорема утверждает, что имеет асимптотически нормальное распределение. Как вытекает из теорем о наследовании сходимости и о линеаризации (см. ниже), из распределения можно вывести распределения различных функций от выборочных начальных моментов. А поскольку центральные моменты выражаются через начальные моменты, то аналогичное утверждение верно и для них.

Предыдущая

Предельные теоремы теории вероятностей

Неравенство Чебышева

Рассмотрим ряд утверждений и теорем из большой группы так называемых предельных теорем теории вероятностей, устанавливающих связь между теоретическими и экспериментальными характеристиками случайных величин при большом числе испытаний над ними. Они составляют основу математической статистики. Предельные теоремы условно делят на две группы. Первая группа теорем, называемая законом больших чисел , устанавливает устойчивость средних значений, т.е. при большом числе испытаний их средний результат перестает быть случайным и может быть предсказан с достаточной точностью. Вторая группа теорем, называемая центральной предельной , устанавливает условия, при которых закон распределения суммы большого числа случайных величин неограниченно приближается к нормальному.

В начале рассмотрим неравенство Чебышева, которое можно использовать для: а) грубой оценки вероятностей событий, связанных со случайными величинами, распределение которых неизвестно; б) доказательства ряда теорем закона больших чисел.

Теорема 7.1 . Если случайная величина X имеет математическое ожидание и дисперсию DX , то для любого справедливо неравенство Чебышева

. (7.1)

Отметим, что неравенство Чебышева можно записать в другой форме:

для частости или события в n независимых испытаниях, в каждом из которых оно может произойти с вероятностью , дисперсия которых , неравенство Чебышева имеет вид

Неравенство (7.5) можно переписать в виде

. (7.6)

Пример 7.1. Оценить с помощью неравенства Чебышева вероятность того, что отклонение случайной величины Х от своего математического ожидания будет меньше трех средне квадратических отклонений, т.е. меньше .

Решение :

Полагая в формуле (7.2), получаем

Эта оценка называется правилом трех сигм .

Теорема Чебышева

Основное утверждение закона больших чисел содержится в теореме Чебышева. В ней и других теоремах закона больших чисел используется понятие «сходимости случайных величин по вероятности».

Случайные величины сходятся по вероятности к величине А (случайной или неслучайной), если для любого вероятность события при стремится к единице, т.е.

(или ). Сходимость по вероятности символически записывают так:

Следует отметить, что сходимость по вероятности требует, чтобы неравенство выполнялось для подавляющего числа членов последовательности (в математическом анализе - для всех n > N , где N - некоторое число), а при практически все члены последовательности должны попасть в ε- окрестность А .

Теорема 7.3 (Закон больших чисел в форме П.Л. Чебышева) . Если случайные величины независимы и существует такое число С> 0, что , то для любого

, (7.7)

т.е. среднее арифметическое этих случайных величин сходится по вероятности к среднему арифметическому их математических ожиданий:

.

Доказательство . Так как , то

.

Тогда, применяя к случайной величине неравенство Чебышева (7.2) имеем

т.е. среднее арифметическое случайных величин сходится по вероятности к математическому ожиданию а :

Доказательство . Так как

а дисперсии случайных величин , т.е ограничены, то применив теорему Чебышева (7.7), получим утверждение (7.9).

Следствие теоремы Чебышева обосновывает принцип «среднего арифметического» случайных величин Х i , постоянно используемый на практике. Так, пусть произведено n независимых измерений некоторой величины, истинное значение которой а (оно неизвестно). Результат каждого измерения есть случайная величина Х i . Согласно следствию, в качестве приближенного значения величины а можно взять среднее арифметическое результатов измерений:

.

Равенство тем точнее, чем больше n .

На теореме Чебышева основан также широко применяемый в статистике выборочный метод , суть которого в том, что о качестве большого количества однородного материала можно судить по небольшой его пробе.

Теорема Чебышева подтверждает связь между случайностью и необходимостью: среднее значение случайной величины практически не отличается от неслучайной величины .

Теорема Бернулли

Теорема Бернулли исторически является первой и наиболее простой формой закона больших чисел. Она теоретически обосновывает свойство устойчивости относительной частоты.

Теорема 7.4 (Закон больших чисел в форме Я. Бернулли) . Если вероятность появления события А в одном испытании равна р , число наступления этого события при n независимых испытаниях равно , то для любого числа имеет место равенство

, (7.10)

т.е относительная частота события А сходится по вероятности к вероятности р события А : .

Доказательство . Введем случайные величины следующим образом: , если в i -м испытании появилось событие А , а если не появилось, то . Тогда число А (число успехов) можно представить в виде

Математическое ожидание и дисперсия случайных величин равны: , . Закон распределения случайных величин X i имеет вид

Х i
Р р

при любом i . Таким образом, случайные величины X i независимы, их дисперсии ограничены одним и тем же числом , так как

.

Поэтому к этим случайным величинам можно применить теорему Чебышева

.

,

Следовательно, .

Теорема Бернулли теоретически обосновывает возможность приближенного вычисления вероятности события с помощью его относительной частоты. Так, например, за вероятность рождения девочки можно взять относительную частоту этого события, которая, согласно статистическим данным, приближенно равна 0,485.

Неравенство Чебышева (7.2) для случайных величин

принимает вид

где p i - вероятность события А в i- м испытании.

Пример 7.2. Вероятность наличия опечатки на одной странице рукописи равна 0,2. Оценить вероятность того, что в рукописи, содержащей 400 страниц, частость появления опечатки отличается от соответствующей вероятности по модулю меньше, чем 0,05.

Решение :

Воспользуемся формулой (7.11). В данном случае , , , . Имеем , т.е. .

Центральная предельная теорема

Центральная предельная теорема представляет собой вторую группу предельных теорем, которые устанавливают связь между законом распределения суммы случайной величины и его предельной формой - нормальным законом распределения.

Сформулируем центральную предельную теорему для случая, когда члены суммы имеют одинаковое распределение. Эта теорема чаще других используется на практике. В математической статистике выборочные случайные величины имеют одинаковые распределения, так как получены из одной и той же генеральной совокупности.

Теорема 7.5 . Пусть случайные величины независимы, одинаково распределены, имеют конечные математическое ожидание и дисперсию , . Тогда функция распределения центрированной и нормированной суммы этих случайных величин стремится при к функции распределения стандартной нормальной случайной величины.

Закон больших чисел

Практика изучения случайных явлений показывает, что хотя результаты отдельных наблюдений, даже проведенных в одинаковых условиях, могут сильно отличаться, в то же время средние результаты для достаточно большого числа наблюдений устойчивы и слабо зависят от результатов отдельных наблюдений. Теоретическим обоснованием этого замечательного свойства случайных явлений является закон больших чисел. Общий смысл закона больших чисел- совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.

Центральная предельная теорема

Теорема Ляпунова объясняет широкое распространение нормального закона распределения и поясняет механизм его образования. Теорема позволяет утверждать, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин, дисперсии которых малы по сравнению с дисперсией суммы, закон распределения этой случайной величины оказывается практически нормальным законом. А поскольку случайные величины всегда порождаются бесконечным количеством причин и чаще всего ни одна из них не имеет дисперсии, сравнимой с дисперсией самой случайной величины, то большинство встречающихся в практике случайных величин подчинено нормальному закону распределения.

Остановимся подробнее на содержании теорем каждой из этих групп

В практических исследованиях очень важно знать, в каких случаях можно гарантировать, что вероятность события будет или достаточно мала, или как угодно близка к единице.

Под законом больших чисел и понимается совокупность предложений, в которых утверждается, что с вероятностью, как угодно близкой к единице (или нулю), произойдет событие, зависящее от очень большого, неограниченно увеличивающегося числа случайных событий, каждое из которых оказывает на него лишь незначительное влияние.

Точнее, под законом больших чисел понимается совокупность предложений, в которых утверждается, что с вероятностью, как угодно близкой к единице, отклонение средней арифметической достаточно большого числа случайных величин от постоянной величины -средней арифметической их математических ожиданий, не превзойдет заданного как угодно малого числа.

Отдельные, единичные явления, которые мы наблюдаем в природе и в общественной жизни, часто проявляются как случайные (например, регистрируемый смертный случай, пол родившегося ребенка, температура воздуха и др.) вследствие того, что на такие явления действует много факторов, не связанных с существом возникновения или развития явления. Предсказать суммарное действие их на наблюдаемое явление нельзя, и они различно проявляются в единичных явлениях. По результатам одного явления нельзя ничего сказать о закономерностях, присущих многим таким явлениям.

Однако давно было замечено, что средняя арифметическая числовых характеристик некоторых признаков (относительные частоты появления события, результатов измерений и т. д.) при большом числе повторений опыта подвержена очень незначительным колебаниям. В средней как бы проявляется закономерность, присущая существу явлений, в ней взаимно погашается влияние отдельных факторов, которые делали случайными результаты единичных наблюдений. Теоретически объяснить такое поведение средней можно с помощью закона больших чисел. Если будут выполнены некоторые весьма общие условия относительно случайных величин, то устойчивость средней арифметической будет практически достоверным событием. Эти условия и составляют наиболее важное содержание закона больших чисел.

Первым примером действия этого принципа и может служить сближение частоты наступления случайного события с его вероятностью при возрастании числа испытаний – факт, установленный в теореме Бернулли (швейцарский математик Якоб Бернулли (1654- 1705)).Теорема Бернулл является одной из простейших форм закона больших чисел и часто используется на практике. Например, частоту встречаемости какого-либо качества респондента в выборке принимают заоценку соответствующей вероятности).

Выдающийся французский математик Симеон Денни Пуассон (1781- 1840) обобщил эту теорему и распространил ее на случай, когда вероятность событий в испытании меняется независимо от результатов предшествующих испытаний. Он же впервые употребил термин «закон больших чисел».

Великий русский математик Пафнутий Львович Чебышев (1821 - 1894) доказал, что закон больших чисел действует в явлениях с любой вариацией и распростаняется также на закономерность средней.

Дальнейшее обобщение теорем закона больших чисел связано с именамиА.А.Маркова, С.Н.Бернштейна, А.Я.Хинчина и А.Н.Колмлгорова .

Общаясовременная постановка задачи, формулировка закона больших чисел, развитие идей и методов доказательства теорем, относящихся к этому закону, принадлежит русским ученым П. Л. Чебышеву, А. А. Маркову и А. М. Ляпунову .

НЕРАВЕНСТВО ЧЕБЫШЕВА

Рассмотрим сначала вспомогательные теоремы: лемму и неравенство Чебышева, с помощью которых легко доказывается закон больших чисел в форме Чебышева.

Лемма (Чебышев).

Если среди значений случайной величины Х нет отрицательных, то вероятность того, что она примет какое-нибудь значение, превосходящее положительное число А, не больше дроби, числитель которой - математическое ожидание случайной величины, а знаменатель -число А:

Доказательство. Пусть известен закон распределения случайной величины Х:

(i = 1, 2, ..., ), причем значения случайной величины мы считаем расположенными в возрастающем порядке.

По отношению к числу А значения случайной величины разбиваются на две группы: одни не превосходят А, а другие больше А. Предположим, что к первой группе относятся первые значений случайной величины ().

Так как , то все члены суммы неотрицательны. Поэтому, отбрасывая первые слагаемых в выражении получим неравенство:

Поскольку

,

то

что и требовалось доказать.

Случайные величины могут иметь различные распределения при одинаковых математических ожиданиях. Однако для них лемма Чебышева даст одинаковую оценку вероятности того или иного результата испытания. Этот недостаток леммы связан с ее общностью: добиться лучшей оценки сразу для всех случайных величин невозможно.

Неравенство Чебышева .

Вероятность того, что отклонение случайной величины от ее математического ожидания превзойдет по абсолютной величине положительное число , не больше дроби, числитель которой - дисперсия случайной величины, а знаменатель -квадрат

Доказательство. Поскольку случайная величина, которая не принимает отрицательных значений, то применим неравенство из леммы Чебышева для случайной величины при :


что и требовалось доказать.

Следствие. Поскольку

,

то

- другая форма неравенства Чебышева

Примем без доказательства факт, что лемма и неравенство Чебышева верны и для непрерывных случайных величин.

Неравенство Чебышева лежит в основе качественных и количественных утверждений закона больших чисел. Оно определяет верхнюю границу вероятности того, что отклонение значения случайной величины от ее математического ожидания больше некоторого заданного числа. Замечательно, что неравенство Чебышева дает оценку вероятности событиядля случайной величины, распределение которой неизвестно, известны лишь ее математическое ожидание и дисперсия.

Теорема. (Закон больших чисел в форме Чебышева)

Если дисперсии независимых случайных величин ограничены одной константой С, а число их достаточно велико, то как угодно близка к единице вероятность того, что отклонение средней арифметическойэтих случайных величин от средней арифметической их математических ожиданий не превзойдет по абсолютной величине данного положительного числа , каким бы малым оно ни было:

.

Теорему примем без доказательства.

Следствие 1. Если независимые случайные величины имеют одинаковые, равные , математические ожидания, дисперсии их ограничены одной и той же постоянной С, а число их достаточно велико, то, сколько бы мало на было данное положительное число , как угодно близка к единице вероятность того, что отклонение средней арифметической этих случайных величин от не превзойдет по абсолютной величине .

То, что за приближенное значение неизвестной величиныпринимают среднюю арифметическую результатов достаточно большого числа ее измерений, произведенных в одних и тех же условиях, можно обосновать этой теоремой. Действительно, результаты измерений являются случайными, так как на них действует очень много случайных факторов. Отсутствие систематических ошибокозначает, что математические ожидания отдельных результатов измерений одинаковые и равны . Следовательно, по закону больших чисел средняя арифметическая достаточно большого числа измерений практически будет как угодно мало отличаться от истинного значения искомой величины.

(Напомним, что ошибки называются систематическими, если они искажают результат измерения в одну и ту же сторону по более или менее ясному закону. К ним относятся ошибки, появляющиеся в результате несовершенства инструментов (инструментальные ошибки), вследствие личных особенностей наблюдателя (личные ошибки) и др.)

Следствие 2 . (Теорема Бернулли.)

Если вероятность наступления события А в каждом из независимых испытаний постоянна, а их число достаточно велико, то сколь угодно близка к единице вероятность того, что частота появления события как угодно мало отличается отвероятности его появления:

Теорема Бернулли, утверждает, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.

На практике сравнительно редко встречаются опыты, в которых вероятность появления события в любом опыте неизменна, чаще онаразная в разных опытах. К схеме испытаний такого типа относится теорема Пуассона:

Следствие 3 . (Теорема Пуассона.)

Если вероятность появления события в -омиспытании не меняется, когда становятся известными результаты предыдущих испытаний, а их число достаточно велико, то сколь угодно близка к единице вероятность того, что частота появления события как угодно мало отличается отсредней арифметической вероятностей :

Теорема Пуассона утверждает, что частота события в серии независимых испытаний стремится к среднему арифметическому его вероятностей и перестает быть случайной.

В заключение заметим, что ни одна из рассмотренных теорем не дает ни точного, ни даже приближенного значения искомой вероятности, а указывается лишь нижняя или верхняя граница ее. Поэтому, если требуется установить точное или хотя бы приближенное значение вероятностей соответствующих событий, возможности этих теорем весьма ограничены.

Приближенные значения вероятностей при больших значениях можно получить только с помощью предельных теорем. В них или на случайные величины налагаются дополнительные ограничения (как это имеет место, например, в теореме Ляпунова), или рассматриваются случайные величины определенного вида (например, в интегральной теореме Муавра-Лапласа).

Теоретическое значение теоремы Чебышева, являющейся весьма общей формулировкой закона больших чисел, велико. Однако если мы будем применять ее при решении вопроса о возможности применить закон больших чисел к последовательности независимых случайных величин, то при утвердительном ответе теорема часто будет требовать, чтобы случайных величин было гораздо больше, чем необходимо для вступления в силу закона больших чисел. Указанный недостаток теоремы Чебышева объясняется общим характером ее. Поэтому желательно иметь теоремы, которые точнее указывали бы нижнюю (или верхнюю) границу искомой вероятности. Их можно получить, если наложить на случайные величины некоторые дополнительные ограничения, которые для встречающихся на практике случайных величин обычно выполняются.

ЗАМЕЧАНИЯ О СОДЕРЖАНИИ ЗАКОНА БОЛЬШИХ ЧИСЕЛ

Если число случайных величин достаточно велико и они удовлетворяют некоторым весьма общим условиям, то, как бы они ни были распределены, практически достоверно, что средняя арифметическая их сколь угодно мало отклоняете а от постоянной величины - - средней арифметической их математических ожиданий, т. е. является практически постоянной величиной. Таково содержание теорем, относящихся к закону больших чисел. Следовательно, закон больших чисел - одно из выражений диалектической связи между случайностью и необходимостью.

Можно привести очень много примеров возникновения новых качественных состояний как проявления закона больших чисел, в первую очередь среди физических явлений. Рассмотрим один из них.

По современным представлениям газы состоят из отдельных частиц- молекул, которые находятся в хаотическом движении, и нельзя точно сказать, где в данный момент будет находиться, и с какой скоростью будет двигаться та или иная молекула. Однако наблюдения показывают, что суммарное действие молекул, например давление газа на

стенку сосуда, проявляется с поразительным постоянством. Оно определяется числом ударов и силой каждого из них. Хотя первое и второе является делом случая, приборы не улавливают колебаний давления газа, находящегося в нормальных условиях. Объясняется это тем, что благодаря огромному числу молекул даже в самых небольших объемах

изменение давления на заметную величину практически невозможно. Следовательно, физический закон, утверждающий постоянство давления газа, является проявлением закона больших чисел.

Постоянство давления и некоторых других характеристик газа в свое время служило веским аргументом против молекулярной теории строения вещества. Впоследствии научились изолировать сравнительно небольшое число молекул, добиваясь того, чтобы влияние от дельных молекул еще оставалось, и тем самым закон больших чисел не мог проявиться в достаточной степени. Тогда удалось наблюдать колебания давления газа, подтверждающие гипотезу о молекулярном строении вещества.

Закон больших чисел лежит в основе различных видов страхования (страхование жизни человека на всевозможные сроки, имущества, скота, посевов и др.).

При планировании ассортимента товаров широкого потребления учитывается спрос на них населения. В этом спросе проявляется действие закона больших чисел.

Широко применяемый в статистике выборочный метод находит свое научное обоснование в законе больших чисел. Например, о качестве привезенной из колхоза на заготовительный пункт пшеницы судят по качеству зерен, случайно захваченных в небольшую мерку. Зерна в мерке немного по сравнению со всей партией, но во всяком случае мерку выбирают такой, чтобы зерен в ней было вполне достаточно для

проявления закона больших чисел с точностью, удовлетворяющей потребности. Мы вправе принять за показатели засоренности, влажности и среднего веса зерен всей партии поступившего зерна соответствующие показатели в выборке.

Дальнейшиеусилия ученых по углублению содержания закона больших чисел былинаправлены па получен наиболее общих условий применимостиэтого закона к последовательности случайных величин. В этом направлении долго не было принципиальных успехов. После П. Л. Чебышева и А. А. Маркова только в 1926 г. советскому академику А. Н. Колмогорову удалось получить условия, необходимые и достаточные для того, чтобы к последовательности независимых случайных величин был применим закон больших чисел. В 1928 г. советский ученый А. Я. Хинчин показал, что достаточным условием применимости закона больших чисел к последовательности независимых одинаково распределенных случайных величин является существование у них математического ожидания.

Для практики исключительно важно полностью выяснить вопрос о применимости закона больших чисел к зависимым случайным величинам, так как явления в природе и обществе находятся во взаимной зависимости и взаимно обусловливают друг друга. Много работ посвящено выяснению ограничений, которые необходимо наложить

на зависимые случайные величины, чтобы к ним можно было применить закон больших чисел, причем наиболее важные принадлежат выдающемуся русскому ученому А. А. Маркову и крупным советским ученым С. Н. Бернштейну и А. Я. Хинчину.

Основной результат этих работ состоит в том, что закон больших чисел приложим к зависимым случайным величинам, если только сильная зависимость существует между случайными величинами с близкими номерами, а между случайными величинами с далекими номерами зависимость достаточно слаба. Примерами случайных величин такого типа являются числовые характеристики климата. На погоду каждого дня заметно влияет погода предыдущих дней, причем влияние заметно ослабевает с удалением дней друг от друга. Следовательно, многолетняя средняя температура, давление и другие характеристики климата данной местности в соответствии с законом больших чисел практически должны быть близки к своим математическим ожиданиям. Последние являются объективными характеристиками климата местности.

В целях экспериментальной проверки закона больших чисел в разное время были произведены следующие опыты.

1. Опыт Бюффона . Монета брошена 4040 раз. Герб выпал 2048 раз. Частость его выпадения оказалась равной 0,50694 =

2. Опыт Пирсона . Монета брошена 12 000 и 24 000 раз. Частость выпадения герба в первом случае оказалась равной 0,5016, в Втором - 0,5005.

З. Опыт Вестергаарда . Из урны, в которой было поровну белых и черных шаров, получено при 10 000 извлечений (с возвратом очередного вынутого шара в урну) 5011 белых и 4989 черных шаров. Частость белых шаров составила 0,50110 = (), а черных - 0,49890.

4. Опыт В. И. Романовского . Четыре монеты брошены 21160 раз. Частоты и частости различных комбинаций выпадения герба и решетки распределились следующим образом:

Комбинации числа выпадений герба и решки

Частоты

Частости

Эмпирические

Теоретические

4 и 0

1 181

0,05858

0,0625

3 и 1

4909

0,24350

0,2500

2 и 2

7583

0,37614

0,3750

1 и 3

5085

0,25224

0,2500

1 и 4

0,06954

0,0625

Итого

20160

1,0000

1,0000

Результаты экспериментальных проверок закона больших чисел убеждают нас в большой близости опытных частостей вероятностям.

ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА

Нетрудно доказать, что сумма любого конечного числа независимых нормально распределенных случайных величин также распределена по нормальному закону.

Если независимые случайные величины не распределены по нормальному закону, то можно наложить на них некоторые весьма нежесткие ограничения, и их сумма будет все-таки распределена нормально.

Эту задачу поставили и решили в основном русские ученые П. Л. Чебышев и его ученики А. А. Марков и А. М. Ляпунов.

Теорема (Ляпунов).

Если независимые случайные величины имеютконечные математические ожидания и конечные дисперсии , число их достаточно велико, а при неограниченном возрастании

,

где - абсолютные центральные моменты третьего порядка, то сумма их с достаточной степенью точности имеет распределение

(Фактически мы приводим не теорему Ляпунова, а одно из следствий из нее, так как этого следствия вполне достаточно для практических приложений. Поэтому условие , которое названо условием Ляпунова, является более сильным требованием, чем необходимо для доказательства собственно теоремы Ляпунова.)

Смысл условия состоит в том, что действие каждого слагаемого (случайной величины) невелико по сравнению с суммарным действием их всех. Многие случайные явления, встречающиеся в природе и в общественной жизни, протекают именно по такой схеме. В связи с этим теорема Ляпунова имеет исключительно большое значение, а нормальный закон распределения является одним из основныхзаконов в теории вероятностей.

Пусть, например, производится измерение некоторой величины . Различные уклонения наблюдаемых значений от истинного ее значения (математического ожидания)получаются в результате воздействия очень большого числа факторов, каждый из которых порождает малую ошибку , причем . Тогда суммарная ошибка измерения является случайной величиной, которая по теореме Ляпунова должна быть распределена по нормальному закону.

При стрельбе из орудия под влиянием очень большого числа причин случайного характера происходит рассеяние снарядов на некоторой площади. Случайные воздействия на траекторию снаряда можно считать независимыми. Каждая причина вызывает лишь незначительное изменение траектории по сравнению с суммарным изменением под воздействием всех причин. Поэтому следует ожидать, что отклонение места разрыва снаряда от цели будет случайной величиной, распределенной по нормальному закону.

По теореме Ляпунова мы вправе ожидать, что, например, рост взрослого мужчины является случайной величиной, распределенной по нормальному закону. Эта гипотеза, как и рассмотренные в предыдущих двух примерах, хорошо согласуется с наблюдениями.В подтверждение приведем распределение по росту 1000 взрослых рабочихмужчини соответствующие теоретические численности мужчин, т. е. число мужчин, которые должны иметь рост указанных групп, если исходить из предположения о распределении роста мужчин по нормальному закону.

Рост, см

количество мужчин

экспериментальные данные

теоретические

прогнозы

143-146

146-149

149-152

152-155

155-158

158- 161

161- 164

164-167

167-170

170-173

173-176

176-179

179 -182

182-185

185-188

Более точного совпаденияэкспериментальных данных с теоретическими трудно было ожидать.

Можно легко доказать как следствие теоремы Ляпунова -предложение, которое будет необходимо в дальнейшем для обоснования выборочного метода.

Предложение.

Сумма достаточно большого числа одинаково распределенных случайных величин имеющих абсолютные центральные моменты третьего порядка, распределена по нормальному закону.

Предельные теоремы теории вероятностей, теоремы Муавра-Лапласа объясняют природу устойчивости частоты появлений события. Природа эта состоит в том, что предельным распределением числа появлений события при неограниченном возрастании числа испытаний (если вероятность события во всех испытаниях одинакова) является нормальное распределение.

Система случайных величин.

Рассмотренные выше случайные величины были одномерными, т.е. определялись одним числом, однако, существуют также случайные величины, которые определяются двумя, тремя и т.д. числами. Такие случайные величины называются двумерными, трехмерными и т.д.

В зависимости от типа, входящих в систему случайных величин, системы могут быть дискретными, непрерывными или смешанными, если в систему входят различные типы случайных величин.

Более подробно рассмотрим системы двух случайных величин.

Определение. Законом распределения системы случайных величин называется соотношение, устанавливающее связь между областями возможных значений системы случайных величин и вероятностями появления системы в этих областях.

Пример. Из урны, в которой находятся 2 белых и три черных шара вынимают два шара. Пусть - число вынутых белых шаров, а случайная величина определяется следующим образом:


Составим таблицу распределения системы случайных величин :

Поскольку - вероятность того, что белых шаров не вынуто (значит, вынуто два черных шара), при этом , то

.

Вероятность

.

Вероятность

Вероятность - вероятность того, что белых шаров не вынуто(и, значит, вынуто два черных шара), при этом , тогда

Вероятность - вероятность того, что вынут один белый шар (и, значит, один черный), при этом , тогда

Вероятность - вероятность того, что вынуто два белых шара (и, значит, ни одного черного), при этом , тогда

.

Таким образом, ряд распределения двумерной случайной величины имеет вид:

Определение. Функцией распределения системы двух случайных величин называется функция двух аргументов F ( x , y ) , равная вероятности совместного выполнения двух неравенств X < x , Y < y .


Отметим следующие свойства функции распределения системы двух случайных величин:

1) ;

2) Функция распределения является неубывающей функцией по каждому аргументу:

3) Верно следующее:

4)


5) Вероятность попадания случайной точки (X , Y ) в произвольный прямоугольник со сторонами, параллельными координатным осям, вычисляется по формуле:


Плотность распределения системы двух случайных величин.

Определение. Плотностью совместного распределения вероятностей двумерной случайной величины (X , Y ) называется вторая смешанная частная производная от функции распределения.

Если известна плотность распределения, то функция распределения может быть найдена по формуле:

Двумерная плотность распределения неотрицательна и двойной интеграл с бесконечными пределами от двумерной плотности равен единице.

По известной плотности совместного распределения можно найти плотности распределения каждой из составляющих двумерной случайной величины.

; ;

Условные законы распределения.

Как было показано выше, зная совместный закон распределения можно легко найти законы распределения каждой случайной величины, входящей в систему.

Однако, на практике чаще стоит обратная задача – по известным законам распределения случайных величин найти их совместный закон распределения.

В общем случае эта задача является неразрешимой, т.к. закон распределения случайной величины ничего не говорит о связи этой величины с другими случайными величинами.

Кроме того, если случайные величины зависимы между собой, то закон распределения не может быть выражен через законы распределения составляющих, т.к. должен устанавливать связь между составляющими.

Все это приводит к необходимости рассмотрения условных законов распределения.

Определение. Распределение одной случайной величины, входящей в систему, найденное при условии, что другая случайная величина приняла определенное значение, называется условным законом распределения .

Условный закон распределения можно задавать как функцией распределения так и плотностью распределения.

Условная плотность распределения вычисляется по формулам:

Условная плотность распределения обладает всеми свойствами плотности распределения одной случайной величины.

Условное математическое ожидание.

Определение. Условным математическим ожиданием дискретной случайной величины Y при X = x (х – определенное возможное значение Х) называется произведение всех возможных значений Y на их условные вероятности.

Для непрерывных случайных величин:

,

где f ( y / x ) – условная плотность случайной величины Y при X = x .

Условное математическое ожидание M ( Y / x )= f ( x ) является функцией от х и называется функцией регрессии Х на Y .

Пример. Найти условное математическое ожидание составляющей Y при

X = x 1 =1 для дискретной двумерной случайной величины, заданной таблицей:

Y

x 1 =1

x 2 =3

x 3 =4

x 4 =8

y 1 =3

0,15

0,06

0,25

0,04

y 2 =6

0,30

0,10

0,03

0,07

Аналогично определяются условная дисперсия и условные моменты системы случайных величин.

Зависимые и независимые случайные величины.

Определение. Случайные величины называются независимыми , если закон распределения одной из них не зависит от того какое значение принимает другая случайная величина.

Понятие зависимости случайных величин является очень важным в теории вероятностей.

Условные распределения независимых случайных величин равны их безусловным распределениям.

Определим необходимые и достаточные условия независимости случайных величин.

Теорема. Y были независимы, необходимо и достаточно, чтобы функция распределения системы ( X , Y ) была равна произведению функций распределения составляющих.

Аналогичную теорему можно сформулировать и для плотности распределения:

Теорема. Для того, чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы плотность совместногораспределения системы ( X , Y ) была равна произведению плотностей распределения составляющих.

Практически используются формулы:

Для дискретных случайных величин:

Для непрерывных случайных величин:

Корреляционный момент служит для того, чтобы охарактеризовать связь между случайными величинами. Если случайные величины независимы, то их корреляционный момент равен нулю.

Корреляционный момент имеет размерность, равную произведению размерностей случайных величин Х и Y . Этот факт является недостатком этой числовой характеристики, т.к. при различных единицах измерения получаются различные корреляционные моменты, что затрудняет сравнение корреляционных моментов различных случайных величин.

Для того, чтобы устранить этот недостаток применятся другая характеристика – коэффициент корреляции.

Определение. Коэффициентом корреляции r xy случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин.

Коэффициент корреляции является безразмерной величиной. Для независимых случайных величин коэффициент корреляции равен нулю.

Свойство: Абсолютная величина корреляционного момента двух случайных величин Х и Y не превышает среднего геометрического их дисперсий.

Свойство: Абсолютная величина коэффициента корреляции не превышает единицы.

Случайные величины называются коррелированными , если их корреляционный момент отличен от нуля, и некоррелированными , если их корреляционный момент равен нулю.

Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.

Если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными.

Часто по заданной плотности распределения системы случайных величин можно определить зависимость или независимость этих величин.

Наряду с коэффициентом корреляции степень зависимости случайных величин можно охарактеризовать и другой величиной, которая называется коэффициентом ковариации . Коэффициент ковариации определяется формулой :

Пример. Задана плотность распределения системы случайных величин Х и независимы. Разумеется, они также будут и некоррелированы.

Линейная регрессия.

Рассмотрим двумерную случайную величину (X , Y ), где X и Y – зависимые случайные величины.

Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.

Для определения этой функции остается только найти постоянные величины a и b .

Определение. Функция g ( X ) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов , если математическое ожидание

Принимает наименьшее возможное значение. Также функция g ( x ) называется среднеквадратической регрессией Y на X .

Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле:

в этой формуле m x = M ( X случайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией g ( X ) = a Х + b .

Видно, что если r = ± 1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.

Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле: Х и Y имеют в отношении друг друга линейные функции регрессии, то говорят, что величины Х и Y связаны линейной корреляционной зависимостью .

Теорема. Если двумерная случайная величина ( X , Y ) распределена нормально, то Х и Y связаны линейной корреляционной зависимостью.

Е.Г. Hикифорова


Чарльз Уилан Глава из книги
Издательство «Манн, Иванов и Фербер»

Наконец, настало время подвести итог сказанному. Поскольку средние значения выборок распределены по нормальному закону (благодаря центральной предельной теореме), мы можем воспользоваться богатым потенциалом кривой нормального распределения. Мы рассчитываем, что примерно 68% средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем одной стандартной ошибки; 95% - на расстоянии, не превышающем двух стандартных ошибок; и 99,7% - на расстоянии, не превышающем трех стандартных ошибок.

Теперь вернемся к отклонению (разбросу) в примере с пропавшим автобусом - правда, на этот раз призовем на помощь не интуицию, а числа. (Сам по себе этот пример остается абсурдным; в следующей главе мы рассмотрим множество более близких к реальности случаев.) Допустим, что организаторы исследования Americans" Changing Lives пригласили всех его участников на выходные в Бостон, чтобы весело провести время и заодно предоставить кое-какие недостающие данные. Участников распределяют произвольным образом по автобусам и отвозят в тестовый центр, где их взвесят, определят рост и т. п. К ужасу организаторов мероприятия, один из автобусов пропадает где-то по пути в тестовый центр. Об этом событии оповещают в программе новостей местного радио и телевидения. Возвращаясь примерно в то же время в своем автомобиле с Фестиваля любителей сосисок, вы замечаете на обочине дороги сломавшийся автобус. Похоже, его водитель был вынужден резко свернуть в сторону, пытаясь уклониться от столкновения с лосем, неожиданно появившимся на дороге. От столь резкого маневра все пассажиры потеряли сознание или лишились дара речи, хотя никто из них, к счастью, не получил серьезных травм. (Такое предположение понадобилось мне исключительно для чистоты приведенного здесь примера, а надежда на отсутствие у пассажиров серьезных травм объясняется моим врожденным человеколюбием.) Врачи кареты скорой помощи, оперативно прибывшие на место происшествия, сообщили вам, что средний вес 62 пассажиров автобуса составляет 194 фунта. Кроме того, оказалось (к огромному облегчению всех любителей животных), что лось, от столкновения с которым пытался увернуться водитель автобуса, практически не пострадал (если не считать легкого ушиба задней ноги), но от сильного испуга тоже потерял сознание и лежит рядом с автобусом.

К счастью, вам известен средний вес пассажиров автобуса, а также сред-неквадратическое отклонение для всей совокупности Americans" Changing Lives. Кроме того, мы имеем общее представление о центральной предельной теореме и знаем, как оказать первую помощь пострадавшему животному. Средний вес участников исследования Americans" Changing Lives составляет 162 фунта; среднеквадратическое отклонение равняется 36. На основе этой информации вы можете вычислить стандартную ошибку для выборки из 62 человек (количество пассажиров автобуса, потерявших сознание): .

Разница между средним значением этой выборки (194 фунта) и средним значением совокупности (162 фунта) равна 32 фунта, то есть значительно больше трех стандартных ошибок. Из центральной предельной теоремы вам известно, что 99,7% средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем трех стандартных ошибок. Таким образом, крайне маловероятно, что встретившийся вам автобус перевозит группу участников исследования Americans" Changing Lives. Будучи видным общественным активистом города, вы звоните организаторам мероприятия, чтобы сообщить, что в повстречавшемся вам автобусе, скорее всего, находится какая-то другая группа людей. Правда, в этом случае вы можете опираться на статистические результаты, а не свои «интуитивные догадки». Вы сообщаете организаторам, что отрицаете вероятность того, что найденный вами автобус именно тот, который они разыскивают, с 99,7% доверительным уровнем. А поскольку в данном случае вы разговариваете с людьми, знакомыми со статистикой, то можете не сомневаться, они понимают, что вы правы. (Всегда приятно иметь дело с умными людьми!)

Сделанные вами выводы находят дальнейшее подтверждение, когда врачи скорой помощи берут пробы крови у пассажиров автобуса и обнаруживают, что средний уровень холестерина в их крови превышает средний уровень холестерина в крови участников исследования Americans" Changing Lives на пять стандартных ошибок. Из этого следует, что впавшие в бессознательное состояние пассажиры - участники Фестиваля любителей сосисок. (Впоследствии это было неопровержимо доказано.)

[У этой истории оказался счастливый конец. Когда к пассажирам автобуса вернулось сознание, организаторы исследования Americans" Changing Lives посоветовали им проконсультироваться у специалистов-диетологов относительно опасности употребления в пищу продуктов с высоким содержанием насыщенных жиров. После таких консультаций многие из любителей сосисок решили порвать со своим позорным прошлым и вернуться к более здоровому рациону питания. Пострадавшего лося выходили в местной ветеринарной клинике и выпустили на свободу под одобрительные возгласы членов местного Общества защиты животных. Да, история почему-то умалчивает о судьбе водителя автобуса. Возможно, потому, что статистика не занимается судьбами отдельно взятых людей. Лось - совсем другое дело, замолчать его судьбу не удастся! В случае чего за него может вступиться Общество защиты животных.]

В этой главе я пытался говорить только об основах. Вы, наверное, обратили внимание, что центральная предельная теорема применима лишь в случаях, когда размер выборки достаточно велик (как правило, не менее 30). Кроме того, нам требуется относительно большая выборка, если мы намерены предположить, что ее среднеквадратическое отклонение будет примерно таким же, как и среднеквадратическое отклонение генеральной совокупности.

Существует немало статистических поправок, которые можно применять в случае несоблюдения указанных условий, но все это похоже на сахарную глазурь на торте (и, возможно, даже на шоколадные крошки, которыми присыпают эту глазурь сверху). «Общая картина» здесь проста и чрезвычайно эффективна.

  1. Если вы формируете на основе какой-либо совокупности большие (по объему) случайные выборки, то их средние значения будут распределены по нормальному закону вблизи среднего значения соответствующей совокупности (какой бы вид ни имело распределение исходной совокупности).
  2. Большинство средних значений выборок будет расположено достаточно близко к среднему значению совокупности (что именно следует в том или ином случае считать «достаточно близким», определяется стандартной ошибкой).
  3. Центральная предельная теорема говорит нам о вероятности того, что среднее значение выборки будет находиться не дальше определенного расстояния от среднего значения совокупности. Относительно маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние двух стандартных ошибок, и крайне маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние трех и более стандартных ошибок.
  4. Чем меньше вероятность того, что какой-то исход оказался чисто случайным, тем больше мы можем быть уверены в том, что здесь не обошлось без воздействия какого-то другого фактора.

В этом по большому счету и заключается сущность статистического вывода. Центральная предельная теорема главным образом делает все это возможным. И до тех пор, пока Леброн Джеймс не станет столько раз чемпионом НБА, сколько Майкл Джордан (шесть), центральная предельная теорема будет производить на нас гораздо большее впечатление, чем знаменитый баскетболист.

Леброн Рэймон Джеймс (LeBron Raymone James) - американский профессиональный баскетболист, играющий на позиции легкого и тяжелого форварда за команду НБА «Кливленд Кавальерс». Прим. перев.

Обратите внимание на весьма остроумное использование в данном случае ложной точности.

Когда среднеквадратическое отклонение соответствующей совокупности вычисляется на основании меньшей выборки, приведенная нами формула несколько видоизменяется: Это помогает учесть то обстоятельство, что дисперсия в малой выборке может «недооценивать» дисперсию всей совокупности. Это не имеет особого отношения к более универсальным положениям, о которых идет речь в данной главе.

Мой коллега из Чикагского университета, Джим Сэлли, сделал очень важное критическое замечание по поводу примеров с пропавшим автобусом. Он указал, что пропавший автобус - чрезвычайно большая редкость в наше время. Поэтому если нам придется искать какой-нибудь пропавший автобус, то любой встретившийся нам автобус, который окажется пропавшим или поломавшимся, наверняка будет именно тем автобусом, который нас интересует, каким бы ни был вес пассажиров в этом автобусе. Пожалуй, Джим прав. (Воспользуюсь такой аналогией: если вы потеряли в супермаркете своего ребенка и дирекция этого магазина сообщает по радио, что возле кассы номер шесть стоит чей-то потерявшийся ребенок, то вы наверняка сразу же решите, что речь идет именно о вашем ребенке.) Следовательно, нам не остается ничего другого, как дополнить наши примеры еще одним элементом абсурда, полагая, что пропажа автобуса является вполне рядовым событием.

Продемонстрируем основные выводы Центральной предельной теоремы с помощью MS EXCEL : построим выборочное распределение среднего, рассчитаем стандартную ошибку и сравним значения, полученные на основе выборки, с выводами ЦПТ.

стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n

Примечание : Про статистики и их выборочные распределения можно прочитать в статье .

Покажем почему равно σ/√n.

Каждое отдельное наблюдение X i в выборке имеет дисперсию σ 2 . Из , следует, что сумма независимых случайных величин в выборке , т.е. х 1 +х 2 …+х n , имеет дисперсию n*σ 2 , а стандартное отклонение этой суммы равно КОРЕНЬ(n) *σ. Чтобы найти стандартное отклонение среднего выборки нужно разделить стандартное отклонение суммы на n. В результате получим, что стандартное отклонение выборочного среднего равно σ/√n.

Т.к. обычно стандартное отклонение исходного распределения, из которого взята выборка, неизвестно, то в расчетах вместо σ используют ее оценку s - стандартное отклонение выборки .

Соответствующая величина s/√n, где n – размер выборки , имеет специальное название: Стандартная ошибка (Standard Error of the Mean , SE M ).

Примечание : Термин SEM иногда также может использоваться для стандартного отклонения выборочного распределения среднего.

Примечание : Хотя Стандартная ошибка является, по сути, стандартным отклонением , ее специальное название обусловлено стремлением подчеркнуть, что она показывает величину неопределенности выборочного среднего . Стандартная ошибка оценивает насколько выборочное среднее Х ср отличается от среднего значения μ исходного распределения. А термин стандартное отклонение обычно используют для обозначения величины изменчивости отдельных элементов выборки от среднего .

Для применения ЦПТ необходимо, чтобы были выполнены следующие условия:

  • отдельные наблюдения в выборке должны быть независимыми;
  • наблюдения берутся из одной и той же генеральной совокупности , т.е. имеют одинаковое распределение с параметрами μ и σ;
  • размер выборки n должен быть «достаточно большим» (см. пояснения ниже).

Примечание : Выборочное среднее является случайной величиной. Есливыполнены вышеуказанные условия, то Выборочное среднее распределено по нормальному закону . При этом не требуется, чтобы исходное распределение, из которого делается выборка , должно быть нормальным .

Примечание : Несмотря, что отдельные значения x i подчиняются какому-то неизвестному нам закону распределения, процедура объединения многих значений для вычисления суммы или среднего , приводит к нормальному распределению (для которого мы умеем вычислять вероятности). Зачастую, имеет смысл говорить, является распределение нормальным или нет, только в отношении суммы или среднего .

Примеры расчета вероятности в MS EXCEL с использованием ЦПТ

Задача1 . Предприятие производит плавленые сырки. Номинальный вес сырка должен составлять 100 грамм. По естественным причинам, вес каждого сырка отличается от номинала. Из опыта известно, что средний вес сырка составляет 105г, а стандартное отклонение равно 15г. Чтобы избежать потери репутации фирмы вес сырка не должен быть слишком мал, но он не должен быть слишком велик, т.к. при этом увеличиваются расходы. Известно, что любую упаковку из 30 штук сырков отбраковывают, если средний вес сырка в ней меньше 95г и больше чем 110г. Какая часть упаковок будет отбракована при 100% контроле?

Чтобы найти вероятность (долю отбракованных упаковок), мы должны знать распределение случайной величины - веса упаковки. Хотя мы не знаем формы распределения отдельного сырка (это распределение не обязательно нормальное ), но из ЦПТ нам известно, что вес упаковки будет распределен по нормальному закону . Осталось определить параметры этого распределения.

Примечание : Хотя в ЦПТ сказано, что по нормальному закону распределено выборочное среднее , но очевидно, что выборочное распределение суммы также будет распределено по нормальному закону , но с другими параметрами.

Из условий задачи мы знаем, что среднее значение веса упаковки сырков равно 30шт *105г . Мы также можем вычислить стандартное отклонение этого выборочного распределения .

Стандартное отклонение известно только для сырка (15г ), но из (считаем, что веса сырков получаются случайным образом) можно вычислить Стандартное отклонение для упаковки:
Var(x 1 +…+x 30)= Var(x 1)+…+ Var(x 30)=30* Var(x)

Т.к. считаем, что все веса х i имеют одинаковое распределение, то случайную величину (вес сырка) обозначим просто х.

Следовательно, стандартное отклонение упаковки сырков =15*КОРЕНЬ(30)

Сначала определим вероятность, того что упаковка сырков будет весить менее 95*30г. В MS EXCEL это можно сделать с помощью формулы:
=НОРМ.РАСП(95*30; 105*30; 15*КОРЕНЬ(30); ИСТИНА)=0,013%

Теперь определим вероятность того, что упаковка сырков будет весить больше 110*30г.
=1-НОРМ.РАСП(110*30; 105*30; 15*КОРЕНЬ(30); ИСТИНА)=3,395%

Таким образом, отбраковано будет 3,395%+0,013%=3,407% продукции.

Тот же результат можно получить при расчете через среднее значение одного сырка:
=НОРМ.РАСП(95; 105; 15/КОРЕНЬ(30); ИСТИНА)+ 1-НОРМ.РАСП(110; 105; 15/КОРЕНЬ(30); ИСТИНА)

Задача2 . Из свойств нормального распределения можно ожидать, что примерно в 95% случаях выборочное среднее будет находиться в пределах 2-х стандартных ошибок от среднего генеральной совокупности (исходного распределения, из которого взята выборка ), т.е. в пределах:

2*s/КОРЕНЬ(n)<μ<2*s/КОРЕНЬ(n)

Например, пусть размер выборки n=30, среднее генеральной совокупности μ =0, а вычисленное на основе выборки стандартное отклонение s=5.

В этом случае стандартная ошибка = 5/КОРЕНЬ(30)

Покажем с помощью формулы MS EXCEL, что искомая вероятность действительно близка к 95%:
=1-((1-НОРМ.РАСП(2*5/КОРЕНЬ(30);0;5/КОРЕНЬ(30);ИСТИНА))+ НОРМ.РАСП(-2*5/КОРЕНЬ(30);0;5/КОРЕНЬ(30);ИСТИНА))=95,45%

Как работает ЦПТ при n=3 и n=10

Для демонстрации выводов ЦПТ проведем «оценку нормальности» распределения выборочного среднего при n=3 и n=10.

В качестве исходного распределения возьмем , описывающее вероятность выпадения определенной грани при бросании игральной кости.

Как известно, среднее значение этого распределения =(1+6)/2=3,5 ; а стандартное распределение =КОРЕНЬ(((6-1+1)^2-1)/12)=1,708

С помощью MS EXCEL произведем 100 серий по 3 броска кубика (n=3) и 100 серий по 10 бросков (n=10).

Для каждой серии бросков (т.е. для каждой выборки ) будем вычислять выборочное среднее. Затем вычислим среднее Выборочных средних и стандартную ошибку . Убедимся, что в соответствии с ЦПТ , эти значения равны 3,5 и 1,708/КОРЕНЬ(n) , соответственно.

Также построим , чтобы убедиться, что выборочное среднее распределено по , и для исходного равномерного распределения и распределения выборочного среднего.

файле примера на листе ЦПТ Классик .

При n=3 График проверки распределения на нормальность будет соответствовать прямой очень условно (сохраняется дискретность данных, унаследованная от исходного распределения), но для n=10 – соответствие нормальному распределению будет хорошим.


Примечание : В качестве иллюстрации сравним графики проверки распределения на нормальность при n=3 и исходного , т.е. для n=1 (красные точки на рисунке ниже). Как видно на рисунке, значения, взятые из равномерного распределения, располагаются четко выраженными группами.

Среднее и Стандартная ошибка Выборочного распределения среднего близки к расчетным значениям, предсказанным ЦПТ .

Для n=10 видно, что разброс значений выборочного среднего (гистограмма слева) не имеет ничего общего с гистограммой, полученной на основе выборки из исходного равномерного распределения (гистограмма справа).

Вывод : С помощью MS EXCEL мы продемонстрировали как работает ЦПТ : не смотря на то, что исходное распределение по форме не имеет ничего общего с нормальным , уже при небольшом n=10 выборочное среднее распределено по закону близкому к нормальному с тем же средним значением и со стандартным отклонением равным стандартной ошибке .

На практике часто требуется определить размер выборки n, достаточный, чтобы распределение выборочного среднего было достаточно близко к нормальному. Очевидно, что асимптотическое приближение распределения выборочного среднего зависит от исходного распределения, из которого берется выборка (если исходное распределение имеет , то распределение выборочного среднего будет медленнее приближаться к нормальному с ростом n). На практике исходное распределение неизвестно, поэтому обычно предполагается, что размер выборки должен быть n=>30.

Алгоритм решения задач с применением классической ЦПТ

Вы проводите аудит крупного банка. Банковский служащий сообщил Вам, что средний депозит в банке составляет 200 долл., а стандартное отклонение равно 45 долл. Вам нужно убедиться в истинности информации, сообщенной менеджером, поэтому Вы решаете взять данные по случайным 50 депозитам.
Дайте описание выборочного распределения среднего при n =50. Предполагая, что сообщенные менеджером характеристики распределения верны, вычислить вероятность, что рассчитанное Вами среднее значение выборки будет меньше 190 долл.

СОВЕТ : Отличное изложение материала по данной теме приведено на сайте http://brownmath.com/swt/chap08.htm (англ.)

Сначала дадим описание выборочного распределения среднего . Зачем нам это нужно? Дело в том, чтобы вычислить вероятность необходимо знать распределение вероятности. Т.е. нужно показать, что выборочное среднее распределено по нормальному закону.

Напомним, что для того, чтобы описать любое распределение необходимо вычислить его среднее , разброс и форму .

Форма распределения . Для того, чтобы решить задачу необходимо убедиться, что выборочное распределение среднего является нормальным (выполняются условия применимости ЦПТ). Как правило, для этого необходимо проверить 2 условия:

  • размер выборки не должен превышать 10% от генеральной совокупности ;
  • размер выборки достаточен, чтобы, несмотря на форму исходного распределения, распределение выборочного среднего было нормальным . Обычно достаточно, чтобы n было больше 30.

Будем считать, что первое условие выполнено (пусть известно, что в банке более 1000 депозитов), соответственно, 50 депозитов составляет менее 10% от общего количества депозитов банка. Исходное распределение, скорее всего, будет смещенным влево, т.к. обычно большинство депозитов небольшого и среднего размера, а крупных депозитов гораздо меньше. Размер выборки является достаточно большим (50>30), чтобы гарантировать, что форма распределения выборочного среднего является близкой к нормальному распределению .

Среднее . Среднее выборочного распределения , согласно ЦПТ , равно среднему исходного распределения, т.е. в нашем случае 200 долл.

Разброс . Стандартное отклонение выборочного среднего (стандартная ошибка ), согласно ЦПТ, равна =45/КОРЕНЬ(50)=6,36 .

Теперь переходим непосредственно к решению задачи. Сначала построим выборочного среднего N(200; 45/КОРЕНЬ(50)).

Зеленая вертикальная линия соответствует х=190 долл.

По условиям задачи мы взяли выборку из 50 депозитов и вычислили среднее этой выборки (Хср). Теперь рассчитаем вероятность того, что Хср будет меньше 190 долл. Это можно сделать с помощью формулы
=НОРМ.РАСП(190; 200; 45/КОРЕНЬ(50); ИСТИНА)=0,058

Таким образом, если Х ср, вычисленное по 50 депозитам, окажется меньше 190 долл., то, это может стать серьезным основанием для сомнений в истинности слов банковского служащего (утверждавшего, что средний банковский депозит равен 200 долл.), т.к. это является маловероятным событием (<6%).

Расчеты приведены в файле примера на листе Задача .

Примечание : Частой ошибкой при решении подобных задач является неправильное использование стандартного отклонения , т.е. когда вместо стандартной ошибки используют известное стандартное отклонение исходного распределения (45 долл.), которое не обязательно является нормальным . Но, даже если исходное распределение нормальное , то вычисленное значение вероятности (в нашем случае оно будет около 40%) всегда существенно выше правильного значения (примерно 6%). Это соответствует схеме расчета, если бы мы выбрали лишь 1 депозит (вместо 50) и попытались бы на основании его значения принять решение об истинности слов служащего банка.

Резюме : Чаще всего на практике распределение, из которого делается выборка не известно (можно лишь предположить, что распределение банковских депозитов, скорее всего, скошено влево, т.к. обычно небольшие вклады составляют наибольшее количество). Но, не зная математического выражения для распределения, мы не можем оценить вероятность извлечь определенное значение из него. Именно в таких случаях нам помогает ЦПТ .

Альтернативная формулировка ЦПТ

Теперь рассмотрим как работает ЦПТ в случае, когда случайная величина является суммой случайных величин, распределенных по различным законам с различными средними и стандартными отклонениями .

Если x 1 , x 2 , x 3 , … x n – случайные величины с известными значениями среднего μ i и стандартного отклонения σ i , и y= x 1 +x 2 +x 3 + … +x n , то распределение

приближается к N (0;1) при n стремящемуся к бесконечности.

Другими словами ЦПТ утверждает, что сумма n независимых случайных величин при достаточно большом n , будет распределена по нормальному закону со средним значением равным сумме средних значений этих случайных величин и дисперсией равной сумме их дисперсий , т.е. по закону

Как и в случае классической ЦПТ , для демонстрации выводов ЦПТ используем MS EXCEL. В качестве исходных распределений возьмем 4 B(0,1; 20), 3 U и 3 }

mob_info