肖文内准则计算器
指示: 使用肖维内标准异常值计算器,通过 z 分数检测异常值。请输入示例数据,此计算器将显示所有步骤:
使用肖维涅标准进行异常值检测
什么是异常值以及我们为什么关心它们
离群值是指数据集中与数据集中其他值相比过于极端的值。当然,这样的定义过于宽泛,但实际上,对于什么是离群值以及如何处理离群值,存在着许多不同的观点。
目前,我们坚持这样的想法:异常值通常是潜在群体某些行为的症状,而异常值的存在可能表明潜在群体不是正态分布的。
肖维涅标准是如何计算的?
非正式地说,肖维涅标准基于这样的思想:如果基础总体呈正态分布,那么在分布均值的某个"带"内找到样本的全部或大部分值是合理的。
现在,这种偏差是用相对值来衡量的,即计算样本数据与平均值之间的标准差。换句话说,我们处理的是 z 分数
从数学上讲,根据肖维内标准,均值周围"合理"数据值所在的区域是\(P = 1- \frac{1}{2n}\)。因此,异常值所在的总区域是\(\frac{1}{4n}\),分布在两个尾部,其中\(n\)是样本大小。
换句话说,我们找到一个满足以下条件的阈值\(D_{max}\)
\[ \Pr(Z > D_{max}) = \displaystyle \frac{1}{4n}\]如果关联 Z 分数的绝对值超过 \(D_{max}\),则值 \(X\) 将成为异常值,即 \(|Z| > D_{max}\)。
为什么异常值如此重要
正如我们之前提到的,异常值可能是缺乏正态性的症状,这表明不同的统计程序(如 z 检验和 t 检验)会得出不可靠的结论。
使用肖维内标准并不是找到异常值的唯一方法,因为你也可以 使用 IQR 规则查找异常值 。现在,检测异常值只是更大方案的一部分,因为每当您想要运行统计分析时,您可能需要事先运行 描述性统计分析 评估所用样本的分布特性。