统计学中的经验法则和其他法则
在任何统计学课程中,您都会经常发现某些“规则”通常被提及。这些规则通常旨在简化您的生活并帮助您更轻松地进行一些计算。但并非所有这些规则都是平等的。事实上,并非所有这些规则都是实际的“规则”,因为有些只是近似值,因此,可能仅具有某些特定用途,有时甚至是有限用途。
在下面的段落中,我们将讨论一些常用的统计规则和近似值。这些通常非常简单,但您需要确切地知道如何以预期的方式使用它们。
正态分布的经验法则
这是迄今为止统计学中最广为人知的“规则”之一。我一直在用引号写“规则”,因为这不是真正的规则而是近似值。经验法则指出,如果一个变量呈正态分布,则大约 68% 的分布在均值的一个标准差内,95% 的分布在均值的两个标准差内,而 99.7% 的分布在三个标准差内均值的标准差。
首先,让我们看看为什么这是有道理的。对应于平均值一个标准偏差内的值的事件是 \(\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}\),如果我们归一化(减去 \(\mu\) 并除以 \(\sigma\)),我们得到以下等效事件:
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}\]
但是,如果 \(X\) 服从均值 \(\mu\) 和标准差 \(\sigma\) 的正态分布,我们知道变量 \(\frac{X-\mu }{\sigma}\) 具有标准正态分布(这是一个均值为 0 且标准差为 1 的正态分布)。通常,变量 \(\frac{X-\mu }{\sigma}\) 写为 \(Z\),所以我们得到的是
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}=\left\{ -1\le Z\le 1 \right\}\]其中 \(Z\) 具有标准正态分布。如果我们使用计算器或 Excel 之类的电子表格程序,我们会发现与平均值的一个标准偏差内的值对应的事件的概率是
\[Pr \left( \mu -\sigma \le X\le \mu +\sigma \right)=\Pr \left( -1\le \frac{X-\mu }{\sigma }\le 1 \right)=\Pr \left( -1\le Z\le 1 \right)\] \[=\Pr \left( Z\le 1 \right)-\Pr \left( Z\le -1 \right)\approx 0.\text{841345}-0.\text{158655}\approx 0.\text{682689}\]因此,平均值的一个标准偏差内的值的真实百分比类似于 68.2689492%,这仍然只是一个近似值,但这个近似值比经验规则规定的 68% 好得多。
类似地,我们可以计算出
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)=\Pr \left( -2\le \frac{X-\mu }{\sigma }\le 2 \right)=\Pr \left( -2\le Z\le 2 \right)\] \[=\Pr \left( Z\le 2 \right)-\Pr \left( Z\le -2 \right)\approx 0.\text{977249868}-0.0\text{2275}0\text{132}\approx 0.\text{9544997}\]因此,平均值的两个标准偏差内的值的真实百分比类似于 95.4499736%(大约),但这个近似值比经验规则规定的 95% 好得多。
最后,我们可以计算出
\[\Pr \left( \mu -3\sigma \le X\le \mu +3\sigma \right)=\Pr \left( -3\le \frac{X-\mu }{\sigma }\le 3 \right)=\Pr \left( -3\le Z\le 3 \right)\] \[=\Pr \left( Z\le 3 \right)-\Pr \left( Z\le -3 \right)\approx 0.\text{99865}0\text{1}0\text{2}-0.00\text{1349898}\approx 0.\text{9973}00\text{2}\]因此,平均值的两个标准偏差内的值的真实百分比大约为 99.7300204%,但这种近似值仍然比经验规则规定的 99.7% 更准确。
警告: 有些教科书甚至不会说这是一个近似值,他们可能会说“68% 的分布在均值的一个标准差内,95% 的分布在均值的两个标准差内,99.7% 的分布在均值的两个标准差内。分布在平均值的三个标准偏差内”,就好像这是一个确切的数字。这可能会让您感到困惑,因为当您在 Excel 上进行计算(或使用书后的正态概率表)时,您会发现 68%,95% 和 99.7% 实际上并不准确。确保您在测试或作业中完全按照老师告诉您的方式使用它,但不要忘记这只是一个近似值。
标准差的经验法则
此规则是另一种粗略的近似值,用于通过使用范围来估计标准偏差。规则说标准偏差可以用以下公式近似:
\[s\approx \frac{Range}{4}\]简单的。在某些情况或应用程序中,您将无法访问数据本身,但您会知道范围。如果是这种情况,您所要做的就是取一个范围并除以 4。
切比雪夫法则
这是一个非常好的规则。嗯,这实际上是一种不平等。这是某种经验法则,但它适用于所有分布(是的,你没听错),而不仅仅是正态分布。切比雪夫规则为分布的百分比提供了一个下限 到 均值的标准差。确实,我们有
\[\Pr \left( \mu -k\sigma \le X\le \mu +k\sigma \right)\ge 1-\frac{1}{{{k}^{2}}}\]Chebyshev 规则对 \(k = 2\) 有什么影响?它说
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)\ge 1-\frac{1}{{{2}^{2}}}=0.75\]这是: 至少 75% 的分布在均值的 2 个标准差范围内 .你说的对。那有什么用?您可能认为从经验法则中您对某些事情了解得更多。是的,您知道 95%(或大约 95%)的分布在平均值的 2 个标准差内。这个臭 75% 有什么要说的。是的,95% 是正确的,但它仅适用于正态分布。至少 75% 的分布在 2 个标准差范围内的陈述是使用切比雪夫规则获得的所有分布的平均值......够了。