Box e Whisker Plot
Il Box and Whisker Plot, o anche noto come Box-plot, è un tipo di rappresentazione grafica di un campione, che fornisce caratteristiche chiave facili da vedere della distribuzione di un campione.
Un grafico a scatola e baffi fornisce la mediana, nonché il primo e il terzo quartile nella sua "scatola", e il minimo e il massimo nel "baffo".
Quando il minimo o il massimo sono troppo estremi, "rifiliamo" il baffo e annotiamo l'esistenza di un valore anomalo.

Nel grafico sopra hai un esempio di come appare un boxplot: hai la "scatola" e i baffi.
La riga inferiore del riquadro è definita dal primo quartile ().
La linea mediana della casella è definita dalla mediana ().
La riga superiore del riquadro è definita dal terzo quartile ().
Ora, per i baffi c'è una regola da seguire: il baffo inferiore è definito dal minimo del campione e il baffo superiore è definito dal massimo del campione. Viene fornito che la dimensione del baffo è inferiore a , dove è l'intervallo interquartile, ed è definito da .
Vedi il grafico di esempio sotto.

Quindi, se il minimo del campione è maggiore di , il baffo inferiore è definito dal minimo. In caso contrario, è definito da .
Allo stesso modo, se il massimo del campione è inferiore a , il baffo superiore è definito dal massimo. In caso contrario, è definito da .
ESEMPIO 1
Costruisci un box-plot per il seguente esempio:
28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51
RISPOSTA:
Otteniamo che il massimo e il minimo siano
La tabella seguente mostra i dati in ordine crescente:
Dati (in ordine crescente) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
51 |
La mediana è quindi
La posizione del 25 ° percentile è
Quindi, lo otteniamo
La posizione del 75 ° percentile è
Quindi, lo otteniamo
Quindi, il riepilogo a 5 numeri è
L'intervallo interquartile in questo caso è . Quindi,
Osserva che il minimo è 19 ed è maggiore di . E il massimo è 51 ed è inferiore a .
Concludiamo che il baffo inferiore è il minimo e il baffo superiore è il massimo in questo caso. Graficamente

ESEMPIO 2
Trova il box plot per lo stesso campione dell'esempio precedente, ma quando sostituisci "51" con "81".
RISPOSTA:
Otteniamo che il massimo e il minimo siano
La tabella seguente mostra i dati in ordine crescente:
Dati (in ordine crescente) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
81 |
La mediana è quindi
La posizione del 25 ° percentile è
Quindi, lo otteniamo
La posizione del 75 ° percentile è
Quindi, lo otteniamo
Quindi, il riepilogo a 5 numeri è
L'intervallo interquartile in questo caso è . Quindi,
Osserva che il minimo è 19 ed è maggiore di . Ma ora il massimo è 81, che supera . Pertanto, il valore "81" è un valore anomalo.
Concludiamo che il baffo inferiore è il minimo e il baffo superiore è definito da . Graficamente

Ulteriori informazioni sul Boxplot
La domanda principale delle persone è cosa ti dicono i boxplots. Cosa rappresentano. E la risposta è semplice: ti danno una rappresentazione riassunta della distribuzione di un campione fornendo un grafico schematico che mostra la posizione relativa del Riepilogo a 5 numeri .
In questo modo, puoi eseguire la scansione valori anomali , puoi valutare il grado di asimmetria della distribuzione e puoi scansionare rapidamente le regioni che hanno il 25%, 50% e 75% della distribuzione totale.
Differenza tra Box-plot e Istogramma
Uno degli aspetti del box plot è che fornisce informazioni leggermente diverse dalle informazioni fornite da un istogramma.
Infatti, l'istogramma mostra la forma grezza della distribuzione, basata sulle classi utilizzate per classificare i possibili valori della variabile casuale. D'altra parte, il boxplot fornisce informazioni riepilogative sui quartili e il riepilogo a 5 numeri, che ti dice molto sulla posizione relativa del primo e del terzo quartile rispetto alla mediana.
Quindi, in altre parole, il boxplot, a differenza dell'istogramma, presenta un grafico che rappresenta un file riepilogo della distribuzione , piuttosto che una rappresentazione grezza. Gli unici valori grezzi che andrebbero in un grafico a scatole sarebbero i valori anomali (se ce ne sono).
Applicazioni
L'applicazione più classica per il box plot è per rilevare i valori anomali. Per definizione, il box plot limita la dimensione dei baffi a 1,5 volte l'intervallo interquartile dalle estremità del riquadro (che sono definiti da e .
Quindi, quindi, tutti i punti che vanno oltre la dimensione massima dei baffi verranno annotati nel box-plot e saranno considerati valori anomali.
Metti in pratica i concetti che hai imparato in questo tutorial usando questo creatore di box-plot . Un altro grafico che permetterà di vedere in un colpo d'occhio le proprietà distributive della distribuzione di un campione è questo creatore di istogrammi , o questo creatore di grafici a stelo e foglia .