Эмпирическое правило и другие правила статистики
В любом классе статистики очень часто встречаются ссылки на определенные "правила". Эти правила обычно предназначены для того, чтобы упростить вашу жизнь и облегчить некоторые вычисления. Но не все эти правила одинаковы. На самом деле не все из этих правил являются действительными "правилами", поскольку некоторые являются лишь приблизительными и, как таковые, могут иметь только какое-то конкретное или даже ограниченное использование иногда.
В следующих параграфах мы обсудим некоторые из тех правил и приближений статистики, которые обычно используются. В целом это довольно просто, но вам нужно точно знать, как их использовать по назначению.
Эмпирическое правило нормального распределения
Это, безусловно, одно из наиболее широко известных "правил" статистики. Я продолжаю писать "правило" в кавычках, потому что это не совсем правило, а приближение. Эмпирическое правило гласит, что если переменная имеет нормальное распределение, примерно 68% распределения находится в пределах одного стандартного отклонения от среднего, 95% распределения находится в пределах двух стандартных отклонений от среднего и 99,7% распределения находится в пределах трех стандартные отклонения среднего.
Прежде всего, давайте разберемся, почему это имеет смысл. Событие, которое соответствует значениям, находящимся в пределах одного стандартного отклонения от среднего, - \(\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}\), и если мы нормализуем (вычтем на \(\mu\) и разделим на \(\sigma\)), мы получим следующие эквивалентные события:
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}\]
Но если \(X\) обычно распределяется со средним значением \(\mu\) и стандартным отклонением \(\sigma\), мы знаем, что переменная \(\frac{X-\mu }{\sigma}\) имеет стандартное нормальное распределение (это нормальное распределение со средним значением 0 и стандартным отклонением 1). Обычно переменная \(\frac{X-\mu }{\sigma}\) записывается как \(Z\), поэтому у нас есть
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}=\left\{ -1\le Z\le 1 \right\}\]где \(Z\) имеет стандартное нормальное распределение. Если мы воспользуемся калькулятором или программой для работы с электронными таблицами, например Excel, мы обнаружим, что вероятность события, соответствующего значениям, находящимся в пределах одного стандартного отклонения от среднего, равна
\[Pr \left( \mu -\sigma \le X\le \mu +\sigma \right)=\Pr \left( -1\le \frac{X-\mu }{\sigma }\le 1 \right)=\Pr \left( -1\le Z\le 1 \right)\] \[=\Pr \left( Z\le 1 \right)-\Pr \left( Z\le -1 \right)\approx 0.\text{841345}-0.\text{158655}\approx 0.\text{682689}\]Таким образом, истинный процент значений в пределах одного стандартного отклонения от среднего составляет примерно 68,2689492%, что все еще является приблизительным, но это приближение намного лучше, чем 68%, заявленные эмпирическим правилом.
Точно так же мы можем вычислить, что
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)=\Pr \left( -2\le \frac{X-\mu }{\sigma }\le 2 \right)=\Pr \left( -2\le Z\le 2 \right)\] \[=\Pr \left( Z\le 2 \right)-\Pr \left( Z\le -2 \right)\approx 0.\text{977249868}-0.0\text{2275}0\text{132}\approx 0.\text{9544997}\]Итак, истинный процент значений в пределах двух стандартных отклонений от среднего составляет примерно 95,4499736% (приблизительно), но это приближение намного лучше, чем 95%, заявленные эмпирическим правилом.
Наконец, мы можем вычислить, что
\[\Pr \left( \mu -3\sigma \le X\le \mu +3\sigma \right)=\Pr \left( -3\le \frac{X-\mu }{\sigma }\le 3 \right)=\Pr \left( -3\le Z\le 3 \right)\] \[=\Pr \left( Z\le 3 \right)-\Pr \left( Z\le -3 \right)\approx 0.\text{99865}0\text{1}0\text{2}-0.00\text{1349898}\approx 0.\text{9973}00\text{2}\]Таким образом, истинный процент значений в пределах двух стандартных отклонений от среднего составляет примерно 99,7300204%, но это приближение все же более точное, чем 99,7%, установленные эмпирическим правилом.
Осторожность: Некоторые учебники даже не говорят, что это приближение, и могут сказать, что "68% распределения находится в пределах одного стандартного отклонения от среднего, 95% распределения находится в пределах двух стандартных отклонений от среднего и 99,7% от среднего". распределение находится в пределах трех стандартных отклонений от среднего ", как если бы это было точное число. Это может вызвать у вас недоумение, потому что, когда вы производите вычисления в Excel (или используя обычные таблицы вероятностей на обороте книги), вы обнаружите, что 68%, 95% и 99,7% на самом деле неточны. Убедитесь, что вы используете его в своих тестах или домашнем задании именно так, как сказал вам инструктор, но не забывайте, что это ПРОСТО ПРИБЛИЖЕНИЕ.
Практическое правило для стандартного отклонения
Это правило представляет собой еще одно грубое приближение, которое используется для оценки стандартного отклонения с использованием диапазона. Правило гласит, что стандартное отклонение можно аппроксимировать следующей формулой:
\[s\approx \frac{Range}{4}\]Простой. В некоторых случаях или приложениях у вас не будет доступа к самим данным, но вы будете знать диапазон. Если это так, все, что вам нужно сделать, это взять диапазон и разделить его на 4.
Правило Чебышева
Это очень хорошее правило. Что ж, это на самом деле неравенство. Это своего рода эмпирическое правило, но оно применяется ко ВСЕМ дистрибутивам (да, вы не ослышались), а не только к нормальному распределению. Правило Чебышева обеспечивает нижнюю границу для процента распределения, которое будет в пределах к стандартные отклонения от среднего. Действительно, у нас есть это
\[\Pr \left( \mu -k\sigma \le X\le \mu +k\sigma \right)\ge 1-\frac{1}{{{k}^{2}}}\]Что говорит правило Чебышева для \(k = 2\)? Это говорит
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)\ge 1-\frac{1}{{{2}^{2}}}=0.75\]Это: По крайней мере, 75% распределения находится в пределах 2 стандартных отклонений от среднего . Правильно вы говорите. Для чего это нужно? Вы можете подумать, что знаете что-то гораздо лучшее из эмпирического правила. Да, вы знали, что 95% (или около 95%) распределения находится в пределах 2 стандартных отклонений от среднего. Что здесь говорят эти вонючие 75%. Да, 95% - это правильно, но работает ТОЛЬКО для нормальных дистрибутивов. Утверждение о том, что по крайней мере 75% распределения находится в пределах 2 стандартных отклонений от среднего, полученного с помощью правила Чебышева, работает для ВСЕХ распределений ... Достаточно сказать.