离群值计算器
指示: 使用此异常值计算器,输入您的样本数据。此计算器将向您展示应用"1.5 x IQR"规则检测异常值的所有步骤。这些异常值将显示在箱线图中。请在下方输入您的样本数据:
异常值计算器以及如何检测异常值
什么是异常值?
离群值是指样本中过于极端的值。这个定义需要更精确:"过于极端"是什么意思?对于"过于极端"这个概念,存在着多种不同的解释。
判断样本中的某个值是否过于极端的一个常见规则是,该值是否超出第一或第三四分位数的四分位距的 1.5 倍
这个异常值计算器将向您展示检测异常值所需的所有步骤和工作:首先,计算四分位数,然后使用四分位距来评估异常值的下尾和上尾中使用的阈值点。
如何计算异常值?
异常值公式是什么?从数学上讲,样本中的值 \(X\) 满足以下条件即为异常值:
\[X < Q_1 - 1.5 \times IQR \, \text{ or } \, X > Q_3 + 1.5 \times IQR\]其中 \(Q_1\) 是第一四分位数,\(Q_3\) 是第三四分位数,\(IQR = Q_3 - Q_1\)
为什么异常值很重要?
需要分析异常值,因为它们的存在可能会使许多统计程序的结果无效。此外,还需要分析异常值,因为它们常常是由于打字错误而产生的。
异常值检测至关重要,因为如果没有检测出并消除明显的异常值,则检验统计量的值可能会偏离正常值,这绝对会导致错误的结论。
因此,如果没有检测并纠正异常值:
- 可能会给出错误的分布描述
- 集中趋势和离散度测量值的扭曲。
- 测试可能会得出错误的结论(通常是错误地拒绝零假设
其他描述统计计算器
通过我们的完整计算 描述性统计计算器 。或者您可能还想使用我们的 四分位数计算器 ,它直接用于检测异常值。事实上,异常值通常使用俗称的"1.5 倍 IQR"规则来计算。
此外,有时使用 z 分数来计算异常值,其中任何原始分数 z分数 绝对值大于 2 的值为异常值。
示例:异常值检测
问题 :考虑以下样本数据:10,10,8,9,12,34,23,22,11,1,1,1,2,3,5,14,12,12,45。检测是否存在异常值。
解决方案:
我们需要计算所提供样本的四分位距 (IQR)。本例中,样本大小为 \(n = 19\)。以下是已提供的样本数据:
| 观察: | \(X\) |
| 1 | 10 |
| 2 | 10 |
| 3 | 8 |
| 4 | 9 |
| 5 | 12 |
| 6 | 34 |
| 7 | 23 |
| 8 | 22 |
| 9 | 11 |
| 10 | 1 |
| 11 | 1 |
| 12 | 1 |
| 13 | 2 |
| 14 | 3 |
| 15 | 5 |
| 16 | 14 |
| 17 | 12 |
| 18 | 12 |
| 19 | 45 |
现在,为了计算四分位数,需要将数据按升序排列,如下表所示
| 位置 | X(升序) |
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 2 |
| 5 | 3 |
| 6 | 5 |
| 7 | 8 |
| 8 | 9 |
| 9 | 10 |
| 10 | 10 |
| 11 | 11 |
| 12 | 12 |
| 13 | 12 |
| 14 | 12 |
| 15 | 14 |
| 16 | 22 |
| 17 | 23 |
| 18 | 34 |
| 19 | 45 |
四分位数
对于\(Q_1\),我们必须计算以下位置:
由于 \(5\) 是整数,因此 \(Q_1\) 的计算方法是简单地按升序定位表中 \(5^{th}\) 位置的值,这意味着在这种情况下
\[Q_1 = 5\]
对于\(Q_3\),我们必须计算以下位置:
由于 (15\) 是整数,因此 \(Q_3\) 是通过在表中按升序排列数据找到 \(15^{th}\) 位置的值来计算的,这意味着在这种情况下
\[Q_3 = 22\]因此,四分位距(IQR)是
\[ \begin{array}{ccl} IQR & = & Q_3 - Q_1 \\\\ \\\\ & = & 22 - 5 \\\\ \\\\ & = & 17 \end{array}\]现在,我们可以计算被视为异常值的下限和上限:
\[Lower = Q_1 - 1.5 \times IQR = 5 - 1.5 \times 17 = -20.5 \]\[Upper = Q_3 + 1.5 \times IQR = 22 + 1.5 \times 17 = 47.5 \]然后,如果 \(X < -20.5\) 或 \(X > 47.5\) 则结果 \(X\) 为异常值。
在这种情况下的结论是,由于所有结果 \(X\) 都在 \(Lower = -20.5\) 和 \(Upper = 47.5\) 的值范围内,因此
没有异常值
.