График с коробками и усами
График "Коробка и усы", или также известный как График "Коробка", представляет собой тип графического изображения образца, который позволяет легко увидеть ключевые особенности распределения образца.
График с ячейками и усами дает медианное значение, а также первый и третий квартили в его "прямоугольнике", а также минимум и максимум в "усе".
Когда минимум или максимум слишком велики, "обрежьте" усы, и мы аннотируем существование выброса.
На приведенном выше графике у вас есть пример того, как выглядит коробчатая диаграмма: у вас есть "прямоугольник" и усы.
Нижняя строка окна определяется первым квартилем (\(Q_1\)).
Средняя линия прямоугольника определяется медианой (\(Q_2\)).
Верхняя строка поля определяется третьим квартилем (\(Q_3\)).
Теперь для усов существует правило: нижние усы определяются минимумом пробы, а верхние усы определяются максимумом пробы. Это при условии, что размер уса меньше, чем \(1.5 \times IQR\), где \(IQR\) - межквартильный диапазон, и он определяется \(IQR = Q_3 - Q_1\).
См. Образец графика ниже.
Итак, если минимум выборки больше \(Q_1 - 1.5 \times IQR\), то нижний ус определяется минимумом. В противном случае он определяется \(Q_1 - 1.5 \times IQR\).
Точно так же, если максимум выборки меньше \(Q_3 + 1.5 \times IQR\), тогда верхний ус определяется максимумом. В противном случае он определяется \(Q_3 + 1.5 \times IQR\).
ПРИМЕР 1
Постройте коробчатую диаграмму для следующего образца:
28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51
ОТВЕЧАТЬ:
Получаем, что максимум и минимум равны
\[\min = 19\] \[\max = 51\]В следующей таблице показаны данные в порядке возрастания:
Данные (в порядке возрастания) |
19 |
28 год |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 год |
35 год |
35 год |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 год |
41 год |
42 |
42 |
42 |
42 |
42 |
43 год |
43 год |
46 |
46 |
46 |
51 |
Тогда медиана
\[Median=\frac{{37}+{38}}{2}=37.5\]Положение 25-го процентиля:
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]Тогда мы получаем, что
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]Положение 75-го процентиля:
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]Тогда мы получаем, что
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]Следовательно, сводка из 5 цифр
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]Межквартильный размах в данном случае \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Следовательно,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
Обратите внимание, что минимум 19, и он больше \(Q_1 - 1.5 \times IQR = 17.25\). И максимум 51, и он меньше \(Q_3 + 1.5 \times IQR = 55.25\).
Делаем вывод, что нижний ус - это минимум, а верхний - максимум в этом случае. Графически
ПРИМЕР 2
Найдите коробчатую диаграмму для того же образца из предыдущего примера, но когда вы замените "51" на "81".
ОТВЕЧАТЬ:
Получаем, что максимум и минимум равны
\[\min = 19\] \[\max = 81\]В следующей таблице показаны данные в порядке возрастания:
Данные (в порядке возрастания) |
19 |
28 год |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 год |
35 год |
35 год |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 год |
41 год |
42 |
42 |
42 |
42 |
42 |
43 год |
43 год |
46 |
46 |
46 |
81 год |
Тогда медиана
\[Median=\frac{{37}+{38}}{2}=37.5\]Положение 25-го процентиля:
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]Тогда мы получаем, что
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]Положение 75-го процентиля:
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]Тогда мы получаем, что
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]Следовательно, сводка из 5 цифр
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]Межквартильный размах в данном случае \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Следовательно,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
Обратите внимание, что минимум 19, и он больше \(Q_1 - 1.5 \times IQR = 17.25\). Но сейчас максимум 81, что превышает \(Q_3 + 1.5 \times IQR = 55.25\). Следовательно, значение "81" является выбросом.
Мы заключаем, что нижний ус - это минимум, а верхний ус определяется \(Q_3 + 1.5 \times IQR = 55.25\). Графически
Подробнее о коробчатом графике
Главный вопрос, который задают люди, - что вам говорят бокс-заговоры. Что они собой представляют. И ответ прост: они дают вам общее представление о распределении выборки с помощью схематического графика, показывающего относительное положение Сводка из 5 цифр .
Таким образом, вы можете сканировать выбросы , вы можете оценить степень асимметрии распределения и быстро просканировать регионы, имеющие 25%, 50% и 75% от общего распределения.
Разница между коробчатым графиком и гистограммой
Одна из особенностей прямоугольной диаграммы заключается в том, что она предоставляет информацию, которая немного отличается от информации, предоставляемой гистограммой.
Действительно, гистограмма показывает необработанную форму распределения, основанную на классах, используемых для классификации возможных значений случайной величины. С другой стороны, ящичная диаграмма предоставляет обобщенную информацию о квартилях и сводку из 5 чисел, которая многое говорит об относительном положении первого и третьего квартилей по отношению к медиане.
Другими словами, коробчатая диаграмма, в отличие от гистограммы, представляет собой график, который представляет собой краткое изложение распределения , а не грубое изображение. Единственные необработанные значения, которые будут входить в коробчатую диаграмму, - это выбросы (если они есть).
Приложения
Наиболее классическое применение коробчатой диаграммы - обнаружение выбросов. По определению, прямоугольная диаграмма ограничивает размер усов в 1,5 раза больше межквартильного размаха \((IQR)\) от концов прямоугольника (которые определяются параметрами \(Q_1\) и \(Q_3\).
Таким образом, любые точки, которые выходят за пределы максимального размера усов, будут аннотированы на прямоугольной диаграмме, и это будет считаться выбросом.
Практикуйте концепции, которые вы узнали в этом руководстве, используя этот коробчатый плотник . Еще один создатель графиков, который позволит сразу увидеть распределительные свойства распределения выборки, - это создатель гистограммы , или это стебле-листовой заговорщик .