在基本统计中使用符号 - 第I部分
让学生非常频繁地混淆的一件事,我会说的超过必要,是统计学中出现的数学符号的自由主义,即使是基本级别。通常是希望的,教练使用符号,即学生不确定。所以,教师在使用符号时看到了一种以精确,明确,更紧凑的方式表达思想的方式。随着想法积累,符号的使用可能会变得更加复杂,或者足以让学生困惑和咬尘埃。
在以下段落中,我们将尝试澄清从自下而上的统计数据中的符号,从最基本的描述性统计数据中的符号,到更复杂的假设测试中使用的符号。
描述性统计中的符号
使用描述性统计数据时常用以下符号。这些符号仍然在大多数统计类中使用。
\(\bar{X}\):这是样本意味着,它对应于来自样本\({{X}_{1}}\),\({{X}_{2}}\),...,\({{X}_{n}}\) 的值的算术平均值。这是统计信息(因为它由样本信息构建)。在某些课程中,特别是在社会和行为科学中,他们使用\(M\)来提到样本意味着。
\({s}^{2}\):这是样本方差,计算为
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
这是统计信息(因为它由样本信息构建)。还有其他版本的上述公式,但它们都会导致相同的数值。
\(s\):这是示例标准偏差,它通过从样本差异的平方根或简单地使用上述公式来计算,这些标准偏差是通过从样本数据\({X}_{1}\),__xyz_c __,...,\({X}_{n}\)计算的
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
这是统计信息(因为它由样本信息构建)。还有其他版本的上述公式,但它们都会导致相同的数值。
\(SS\):这是“平方和”。该统计数据测量相对于样本的变量\(X\)的平方变化。如果您有一个样本\({{X}_{1}}\),__xyz_d __,...,__ xyz_e__,用于计算它的公式
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]通常,下标用于表示我们所指的是什么变量,如果不清楚。例如,您可以编写\(S{{S}_{X}}\)来引用变量\(X\)的平方和,或者您可以编写\(S{{S}_{Y}}\),以引用变量Y的平方和。在社交和行为科学中,您通常会写出\(X\)的平方和作为\(SS_{XX}\)而不是\(SS_{X}\),但这一切都只是关于更有意义的首选表示法。当表达正方之和时,还有其他表达式等同于。例如,在这里,我们有两种替代方式来编写方块的和:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
基于以上,样本方差与平方和之间存在明确的链接:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
请注意,符号有时会过度,有时是不一致的。实际上,使用下标的正方形(如\(S{{S}_{XX}}\)___________)非常常见,以指示我们参考哪种变量(在这种情况下\(X\))。虽然,在方差或标准偏差的情况下,这种使用下标不太常见,但仍然可以接受。例如,您可以编写\({{s}_{X}}\)以指定变量\(X\)的样本标准偏差,或者更准确地说,\({{s}_{X}}\)表示从样本\({{X}_{1}}\),__xyz_e __,...,\({{X}_{n}}\)中计算的样本标准偏差,其中来自随机变量\(X\)。
\(m\):样品中位数。设置分布中间的点(或插值点)。关于将样品中位数称为\(m\),没有通用协议,但这是一个常见的做法。
\({{Q}_{j}}\):这是j 钍 四分位数,\(j=1,2,3,4\)。这些是分配分配在季度的点(或插值点)。请注意,\({{Q}_{2}}\)是中位数。
\({{P}_{x}}\):这是x-th百分位数,\(0\le x\le 100\)。这些是点(或内插点),因此分布的X百分比位于这些点的左侧。观察\(m={{Q}_{2}}={{P}_{50}}\)。
IQR: 这是 畴范围 ,它被定义为\(IQR={{Q}_{3}}-{{Q}_{1}}\),这是第三个和第一个四分位数之间的差异。这通常用作色散的量度和检测异常值。
其他描述性统计信息:有许多常用的描述性统计数据,没有通用符号使用。例如,有时使用偏斜,库尔塔斯,等级等的时刻,但是普遍用来普遍用来表示它们的紧凑型符号。