Box e Whisker Plot


Il Box and Whisker Plot, o anche noto come Box-plot, è un tipo di rappresentazione grafica di un campione, che fornisce caratteristiche chiave facili da vedere della distribuzione di un campione.

Un grafico a scatola e baffi fornisce la mediana, nonché il primo e il terzo quartile nella sua "scatola", e il minimo e il massimo nel "baffo".

Quando il minimo o il massimo sono troppo estremi, "rifiliamo" il baffo e annotiamo l'esistenza di un valore anomalo.

Esempio di box-plot

Nel grafico sopra hai un esempio di come appare un boxplot: hai la "scatola" e i baffi.

La riga inferiore del riquadro è definita dal primo quartile (\(Q_1\)).

La linea mediana della casella è definita dalla mediana (\(Q_2\)).

La riga superiore del riquadro è definita dal terzo quartile (\(Q_3\)).

Ora, per i baffi c'è una regola da seguire: il baffo inferiore è definito dal minimo del campione e il baffo superiore è definito dal massimo del campione. Viene fornito che la dimensione del baffo è inferiore a \(1.5 \times IQR\), dove \(IQR\) è l'intervallo interquartile, ed è definito da \(IQR = Q_3 - Q_1\).

Vedi il grafico di esempio sotto.

Grafico a scatole e quartili

Quindi, se il minimo del campione è maggiore di \(Q_1 - 1.5 \times IQR\), il baffo inferiore è definito dal minimo. In caso contrario, è definito da \(Q_1 - 1.5 \times IQR\).

Allo stesso modo, se il massimo del campione è inferiore a \(Q_3 + 1.5 \times IQR\), il baffo superiore è definito dal massimo. In caso contrario, è definito da \(Q_3 + 1.5 \times IQR\).


ESEMPIO 1

Costruisci un box-plot per il seguente esempio:

28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51

RISPOSTA:

Otteniamo che il massimo e il minimo siano

\[\min = 19\] \[\max = 51\]

La tabella seguente mostra i dati in ordine crescente:

Dati (in ordine crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

51

La mediana è quindi

\[Median=\frac{{37}+{38}}{2}=37.5\]

La posizione del 25 ° percentile è

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Quindi, lo otteniamo

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

La posizione del 75 ° percentile è

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Quindi, lo otteniamo

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Quindi, il riepilogo a 5 numeri è

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]

L'intervallo interquartile in questo caso è \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Quindi,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Osserva che il minimo è 19 ed è maggiore di \(Q_1 - 1.5 \times IQR = 17.25\). E il massimo è 51 ed è inferiore a \(Q_3 + 1.5 \times IQR = 55.25\).

Concludiamo che il baffo inferiore è il minimo e il baffo superiore è il massimo in questo caso. Graficamente

Box plot per esempio n. 1

ESEMPIO 2

Trova il box plot per lo stesso campione dell'esempio precedente, ma quando sostituisci "51" con "81".

RISPOSTA:

Otteniamo che il massimo e il minimo siano

\[\min = 19\] \[\max = 81\]

La tabella seguente mostra i dati in ordine crescente:

Dati (in ordine crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

81

La mediana è quindi

\[Median=\frac{{37}+{38}}{2}=37.5\]

La posizione del 25 ° percentile è

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Quindi, lo otteniamo

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

La posizione del 75 ° percentile è

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Quindi, lo otteniamo

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Quindi, il riepilogo a 5 numeri è

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]

L'intervallo interquartile in questo caso è \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Quindi,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Osserva che il minimo è 19 ed è maggiore di \(Q_1 - 1.5 \times IQR = 17.25\). Ma ora il massimo è 81, che supera \(Q_3 + 1.5 \times IQR = 55.25\). Pertanto, il valore "81" è un valore anomalo.

Concludiamo che il baffo inferiore è il minimo e il baffo superiore è definito da \(Q_3 + 1.5 \times IQR = 55.25\). Graficamente

Esempio di box plot 2

Ulteriori informazioni sul Boxplot

La domanda principale delle persone è cosa ti dicono i boxplots. Cosa rappresentano. E la risposta è semplice: ti danno una rappresentazione riassunta della distribuzione di un campione fornendo un grafico schematico che mostra la posizione relativa del Riepilogo a 5 numeri .

In questo modo, puoi eseguire la scansione valori anomali , puoi valutare il grado di asimmetria della distribuzione e puoi scansionare rapidamente le regioni che hanno il 25%, 50% e 75% della distribuzione totale.

Differenza tra Box-plot e Istogramma

Uno degli aspetti del box plot è che fornisce informazioni leggermente diverse dalle informazioni fornite da un istogramma.

Infatti, l'istogramma mostra la forma grezza della distribuzione, basata sulle classi utilizzate per classificare i possibili valori della variabile casuale. D'altra parte, il boxplot fornisce informazioni riepilogative sui quartili e il riepilogo a 5 numeri, che ti dice molto sulla posizione relativa del primo e del terzo quartile rispetto alla mediana.

Quindi, in altre parole, il boxplot, a differenza dell'istogramma, presenta un grafico che rappresenta un file riepilogo della distribuzione , piuttosto che una rappresentazione grezza. Gli unici valori grezzi che andrebbero in un grafico a scatole sarebbero i valori anomali (se ce ne sono).

Applicazioni

L'applicazione più classica per il box plot è per rilevare i valori anomali. Per definizione, il box plot limita la dimensione dei baffi a 1,5 volte l'intervallo interquartile \((IQR)\) dalle estremità del riquadro (che sono definiti da \(Q_1\) e \(Q_3\).

Quindi, quindi, tutti i punti che vanno oltre la dimensione massima dei baffi verranno annotati nel box-plot e saranno considerati valori anomali.

Metti in pratica i concetti che hai imparato in questo tutorial usando questo creatore di box-plot . Un altro grafico che permetterà di vedere in un colpo d'occhio le proprietà distributive della distribuzione di un campione è questo creatore di istogrammi , o questo creatore di grafici a stelo e foglia .

Non hai un account di iscrizione?
Iscriviti

Resetta la password

Torna a
accesso

Iscriviti

Torna a
accesso