Что делать с центральной предельной теоремой и связана ли она с нормальным распределением?
Должна быть причина, по которой нормальное распределение ТАК популярно. Я имею в виду, если мы примем во внимание, что нормальное распределение со средним значением \(\mu\) и дисперсией \({{\sigma }^{2}}\) имеет функцию плотности, как показано ниже
\[f\left( x \right)=\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)\]
тогда следует думать, что он популярен не только из-за простоты его функции плотности.
Управление нормальным распределением
Действительно, студенты, изучающие статистику, боятся иметь дело с нормальным распределением в отношении его алгебраических манипуляций, потому что, конечно, оно может быть громоздким. Например, функция плотности \(f\left( x \right)\), представленная выше, действительно является плотностью, поскольку можно доказать (хотя это и не элементарно), что
\[\int\limits_{-\infty }^{\infty }{\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=1\]
И поскольку эта плотность \(f\left( x \right)\) является допустимой плотностью, тогда мы должны иметь, что
\[\int\limits_{-\infty }^{\infty }{\frac{x}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=\mu\]
and\[\int\limits_{-\infty }^{\infty }{\frac{{{x}^{2}}}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}={{\mu }^{2}}+{{\sigma }^{2}}\]
которые нетривиально доказать (особенно последний). Итак, да, алгебраически трудно иметь дело с нормальным распределением. Но тогда почему это так популярно ??
Стандартное нормальное распределение и Z-баллы
Одна веская причина, которая, вероятно, сама по себе является достаточно веской, заключается в том, что с помощью очень простого стандартизация В процессе, мы можем уменьшить ЛЮБОЕ нормальное распределение \(N\left( \mu ,{{\sigma }^{2}} \right)\) до стандартного нормального распределения, при этом нормальное распределение имеет нулевое среднее значение и стандартное отклонение 1 или \(N\left( 0,1 \right)\). Стандартизация заключается в уменьшении исходной переменной X до z-значения используя следующее выражение:
\[Z=\frac{X-\mu }{\sigma }\]
Действительно, можно доказать, что если X имеет нормальное распределение со средним значением \(\mu\) и дисперсией \({{\sigma }^{2}}\), \(N\left( \mu ,{{\sigma }^{2}} \right)\), то \(Z\) определяется как
\[Z=\frac{X-\mu }{\sigma}\]
также имеет нормальное распределение, но со средним значением 0 и стандартным отклонением 1. Это небольшое сокращение оказывается ЧРЕЗВЫЧАЙНО эффективным, потому что с его помощью мы можем сократить вычисление ЛЮБЫХ вероятностей нормального распределения до вычисления вероятностей для стандартного нормального распределения. Вы даже не задумывались, почему на обратной стороне учебников по статистике есть таблицы нормального распределения ТОЛЬКО для стандартного нормального распределения? Это связано с тем, что все нормальные распределения могут быть сведены к стандартным нормальным распределениям с помощью z-оценок, и было бы действительно непрактично или невозможно распечатать ВСЕ возможные таблицы для всех возможных нормальных распределений.
Пример: Предположим, что средний вес детей в пятом классе составляет 72 фунта со стандартным отклонением 8 фунтов, и распределение следует нормальному распределению. Вычислите вероятность того, что случайный ребенок весит менее 75,5 фунтов.
Решение: Обратите внимание, что событие \(X<75.5\) может быть эквивалентно выражено как
\[X-72<75.5-72\]
Почему? Потому что мы просто вычли 72 из обеих частей неравенства, что не меняет решения неравенства. По тем же соображениям я могу разделить обе стороны на 8, чтобы получить эквивалентное событие.
\[\frac{X-72}{8}<\frac{75.5-72}{8}\]
ПОЖАЛУЙСТА, НЕ ЗАБУДЬТЕ ЗДЕСЬ: Все, что мы говорим, это то, что если X является решением \(X<75.5\), то X также является решением \(X-72<75.5-72\), и тогда X также является решением \(\frac{X-72}{8}<\frac{75.5-72}{8}\). И наоборот, если X является решением \(\frac{X-72}{8}<\frac{75.5-72}{8}\), то X также является решением \(X-72<75.5-72\), и X также является решением \(X<75.5\). Вот что мы имеем в виду, когда говорим, что события \(\left\{ X<75.5 \right\}\), \(\left\{ X-72<75.5-72 \right\}\) и \(\left\{ \frac{X-72}{8}<\frac{75.5-72}{8} \right\}\) ЭКВИВАЛЕНТНЫ (то есть они определяют один и тот же набор решений).
Поэтому в этом примере нам нужно вычислить следующую вероятность:
\[\Pr \left( X<75.5 \right)=\Pr \left( \frac{X-72}{8}<\frac{75.5-72}{8} \right)=\Pr \left( Z<0.4375 \right)=0.6691\]
Как видите, стандартно с определенным нормальным распределением я сделал преобразование, чтобы получить эквивалентное событие, которое включает Z-оценку, а затем я могу использовать любую стандартную таблицу нормального распределения (или Excel) для вычисления окончательной вероятности.
Центральная предельная теорема (ЦПТ)
Если приведенное выше не было достаточно веской причиной для того, чтобы вы любили нормальное распределение (несмотря на его громоздкую алгебраическую форму), я дам вам причину, перед которой вы не сможете устоять. Оказывается, существует много типов вероятностных распределений (я имею в виду МНОГИЕ), которые могут иметь совершенно другие свойства, чем нормальное распределение. Но если вы возьмете повторения случайной величины из ЛЮБОГО распределения и вычислите их среднее значение, эти средние значения будут (как вы думаете?) Опасно напоминать нормальное распределение, особенно когда размер выборки (количество повторений) велик. .
Итак, в процессе взятия средних значений выборки значений, полученных из ЛЮБОГО распределения вероятностей, и анализа распределения этих средних значений мы начинаем видеть нормальное распределение (когда размер выборки большой). Каким-то образом усреднение искажает исходную форму распределения и превращает ее в нормальную, НЕЗАВИСИМО от основного распределения. Этот факт - одно из самых удивительных открытий в статистике, сделанное Карлом Фридрихом Гауссом. Предупреждение: Центральная предельная теорема имеет формальную статистическую формулировку, которую мы здесь не будем включать, но в ней говорится, что выборка средних значений СХОДИТСЯ к нормальному распределению в определенном смысле вероятности. Не вдаваясь в подробности, это означает, что в большинстве случаев средние значения выборки имеют ПРИБЛИЗИТЕЛЬНОЕ нормальное распределение для достаточно большого размера выборки. Слишком часто преподаватели дают неверную интерпретацию, говоря, что распределение выборочных средних СТАНОВИТСЯ нормальным распределением, что в целом неверно (фактически, это верно только тогда, когда лежащее в основе исходное распределение является нормальным).
Вот почему нормальное распределение так высоко ценится: именно потому, что оно имеет такой вид волшебное свойство что, взяв средние значения любого распределения, вы получите что-то, что выглядит довольно нормально, если вы возьмете достаточно большой размер выборки.