盒须图
Box and Whisker Plot,或也称为 Box-plot,是一种样本的图形描述,它提供了易于查看的样本分布的关键特征。
盒须图提供了其“盒”中的中位数以及第一和第三四分位数,以及“须”中的最小值和最大值。
当最小值或最大值太极端时,“修剪”胡须,我们注释异常值的存在。
在上图中,您有一个箱线图的示例:您有“盒子”和胡须。
框的底线由第一个四分位数 (\(Q_1\)) 定义。
框的中线由中位数 (\(Q_2\)) 定义。
框的顶线由第三个四分位数 (\(Q_3\)) 定义。
现在,对于晶须,有一个规则要遵循:底部晶须由样品的最小值定义,顶部晶须由样品的最大值定义。前提是须的尺寸小于\(1.5 \times IQR\),其中\(IQR\) 是四分位距,由\(IQR = Q_3 - Q_1\) 定义。
请参阅下面的示例图。
因此,如果样本的最小值大于 \(Q_1 - 1.5 \times IQR\),则下须由最小值定义。否则,它由 \(Q_1 - 1.5 \times IQR\) 定义。
同样,如果样本的最大值小于 \(Q_3 + 1.5 \times IQR\),则顶部须由最大值定义。否则,它由 \(Q_3 + 1.5 \times IQR\) 定义。
例 1
为以下样本构建箱线图:
28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 31, 5
回答:
我们得到最大值和最小值是
\[\min = 19\] \[\max = 51\]下表按升序显示数据:
数据(升序) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
51 |
那么中位数是
\[Median=\frac{{37}+{38}}{2}=37.5\]第 25 个百分位数的位置是
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]然后,我们得到
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]第 75 个百分位数的位置是
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]然后,我们得到
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]因此,5 数汇总是
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]在这种情况下,四分位距是 \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\)。因此,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
观察到最小值为 19,并且大于 \(Q_1 - 1.5 \times IQR = 17.25\)。并且最大值为51,低于\(Q_3 + 1.5 \times IQR = 55.25\)。
我们得出结论,在这种情况下,下部晶须最小,顶部晶须最大。以图形方式
例2
找到上一示例中相同样本的箱线图,但将“51”替换为“81”。
回答:
我们得到最大值和最小值是
\[\min = 19\] \[\max = 81\]下表按升序显示数据:
数据(升序) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
81 |
那么中位数是
\[Median=\frac{{37}+{38}}{2}=37.5\]第 25 个百分位数的位置是
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]然后,我们得到
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]第 75 个百分位数的位置是
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]然后,我们得到
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]因此,5 数汇总是
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]在这种情况下,四分位距是 \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\)。因此,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
观察到最小值为 19,并且大于 \(Q_1 - 1.5 \times IQR = 17.25\)。但现在最大值是 81,超过了 \(Q_3 + 1.5 \times IQR = 55.25\)。因此,值“81”是异常值。
我们得出结论,下部晶须是最小的,顶部晶须由 \(Q_3 + 1.5 \times IQR = 55.25\) 定义。以图形方式
关于箱线图的更多信息
人们的主要问题是箱线图告诉你什么。他们代表什么。答案很简单:它们通过提供显示样本的相对位置的示意图,为您提供样本分布的概括描述。 5号汇总 .
这样,您可以扫描 离群值 ,您可以评估分布的偏度,并且可以快速扫描占总分布的 25%,50% 和 75% 的区域。
箱线图和直方图的区别
关于箱线图的一件事是它提供的信息与直方图提供的信息略有不同。
事实上,直方图显示了分布的原始形状,基于用于对随机变量的可能值进行分类的类别。另一方面,箱线图提供有关四分位数和 5 数汇总的汇总信息,它可以告诉您很多关于第一和第三四分位数相对于中位数的相对位置。
因此,换句话说,箱线图与直方图不同,它呈现的图形表示 分布摘要 ,而不是原始描述。箱线图中唯一的原始值是异常值(如果有的话)。
应用
箱线图最经典的应用是检测异常值。根据定义,箱线图将胡须的大小限制为距盒子末端(由 \(Q_1\) 和 \(Q_3\) 定义)的四分位距 \((IQR)\) 的 1.5 倍。
因此,任何超出胡须最大尺寸的点都将在箱线图中注释,并将被视为异常值。
使用本教程练习您在本教程中学到的概念 箱线图制作器 .另一个可以让您一瞥样本分布的分布特性的图表制作工具是这样的 直方图制作器 , 或这个 茎叶绘图器 .