如何处理中心极限定理,它与正态分布有关吗?
正态分布如此受欢迎一定是有原因的。我的意思是,如果我们考虑均值为 \(\mu\) 且方差为 \({{\sigma }^{2}}\) 的正态分布具有如下所示的密度函数
\[f\left( x \right)=\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)\]
那么人们一定会认为它很受欢迎并不是因为它的密度函数很简单。
操纵正态分布
事实上,统计学专业的学生害怕必须处理正态分布的代数运算,因为当然,它可能很麻烦。例如,上面介绍的密度函数 \(f\left( x \right)\) 确实是一个密度,因为可以证明(尽管这样做并不基本)
\[\int\limits_{-\infty }^{\infty }{\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=1\]
因为这个密度 \(f\left( x \right)\) 是一个有效的密度,所以我们必须有
\[\int\limits_{-\infty }^{\infty }{\frac{x}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=\mu\]
and\[\int\limits_{-\infty }^{\infty }{\frac{{{x}^{2}}}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}={{\mu }^{2}}+{{\sigma }^{2}}\]
这不是微不足道的证明(尤其是最后一个)。所以,是的,很难代数处理正态分布。但是,为什么它如此受欢迎?
标准正态分布和 Z 分数
一个很好的理由,这本身可能是一个足够强大的理由,是通过一个非常简单的 标准化 在此过程中,我们可以将任何正态分布 \(N\left( \mu ,{{\sigma }^{2}} \right)\) 简化为标准正态分布,即均值为 0 且标准差为 1 的正态分布,或 \(N\left( 0,1 \right)\)。标准化包括将原始变量 X 减少到 z-分数 使用以下表达式:
\[Z=\frac{X-\mu }{\sigma }\]
事实上,可以证明,如果 X 具有均值为 \(\mu\) 且方差为 \({{\sigma }^{2}}\),\(N\left( \mu ,{{\sigma }^{2}} \right)\) 的正态分布,则 \(Z\) 定义为
\[Z=\frac{X-\mu }{\sigma}\]
也有正态分布,但均值为 0,标准差为 1。事实证明,这种小的减少非常有效,因为通过使用我们可以将任何正态分布概率的计算减少到标准正态分布的概率计算。你有没有想过为什么 Stats 教科书的背面只提供标准正态分布的正态分布表?这是因为所有正态分布都可以通过 z 分数简化为标准正态分布,并且为所有可能的正态分布打印出所有可能的表格是非常不切实际或不可能的。
例子: 假设五年级儿童的平均体重为 72 磅,标准差为 8 磅,分布服从正态分布。计算随机儿童体重小于 75.5 磅的概率。
解决方案: 观察到事件 \(X<75.5\) 可以等价地表示为
\[X-72<75.5-72\]
为什么?因为我们只是在不等式两边减去72,并没有改变不等式的解。同理,我可以将两边除以 8 得到一个等价的事件
\[\frac{X-72}{8}<\frac{75.5-72}{8}\]
请不要在这里混淆:我们要说的是,如果 X 是 \(X<75.5\) 的解,那么 X 也是 \(X-72<75.5-72\) 的解,那么 X 也是 \(\frac{X-72}{8}<\frac{75.5-72}{8}\) 的解。反之,如果 X 是 \(\frac{X-72}{8}<\frac{75.5-72}{8}\) 的解,那么 X 也是 \(X-72<75.5-72\) 的解,X 也是 \(X<75.5\) 的解。这就是我们说事件 \(\left\{ X<75.5 \right\}\),\(\left\{ X-72<75.5-72 \right\}\) 和 \(\left\{ \frac{X-72}{8}<\frac{75.5-72}{8} \right\}\) 是等效的(也就是说,它们定义了相同的一组解决方案)的意思。
因此,在本例中,我们需要计算以下概率:
\[\Pr \left( X<75.5 \right)=\Pr \left( \frac{X-72}{8}<\frac{75.5-72}{8} \right)=\Pr \left( Z<0.4375 \right)=0.6691\]
正如您所看到的,在某个正态分布的标准下,我进行了转换以获得涉及 Z 分数的等效事件,然后我可以使用任何标准正态分布表(或 Excel)来计算最终概率。
中心极限定理 (CLT)
如果以上不是你喜欢正态分布的充分理由(尽管它的代数形状很麻烦),我会给你一个你无法抗拒的理由。事实证明,有许多类型的概率分布(我的意思是,很多),它们可以具有与正态分布完全不同的属性。但是,如果您从任何分布中重复随机变量,并计算它们的平均值,则这些平均值将(您认为?)与正态分布非常相似,尤其是当样本量(重复次数)很大时.
因此,在对来自任何概率分布的值样本取平均值并现在分析这些平均值的分布的过程中,我们开始看到正态分布(当样本量很大时)。不知何故,取平均值会弯曲分布的原始形状并将其变成正态,无论底层分布如何。这一事实是卡尔·弗里德里希·高斯 (Carl Friederich Gauss) 在统计学中最惊人的发现之一。需要注意的是,中心极限定理有一个正式的统计公式,我们不会在这里包括它,但它指出样本平均收敛到正态分布,在一定的概率意义上。在不涉及太多技术问题的情况下,这意味着在大多数情况下,对于足够大的样本量,样本平均值具有近似正态分布。有时教师会给出错误的解释,说样本平均值的分布变成正态分布,这在一般情况下是不正确的(实际上,只有当基础原始分布是正态时才是正确的),这太常见了。
所以这就是为什么正态分布受到高度重视:因为它具有这种 魔法属性 如果您采用足够大的样本量,那么对任何分布取平均值,您最终会得到看起来相当正常的结果。