Gráfico de caixa e bigode
O Box and Whisker Plot, ou também conhecido como Box-plot, é um tipo de representação gráfica de uma amostra, que fornece fácil visualização das principais características da distribuição de uma amostra.
Um gráfico de caixa e bigode fornece a mediana, bem como o primeiro e o terceiro quartis em sua "caixa", e o mínimo e o máximo em "bigode".
Quando o mínimo ou máximo são muito extremos, "aparamos" o bigode e anotamos a existência de um outlier.

No gráfico acima, você tem um exemplo de como um boxplot se parece: Você tem a "caixa" e os bigodes.
A linha inferior da caixa é definida pelo primeiro quartil ().
A linha do meio da caixa é definida pela mediana ().
A linha superior da caixa é definida pelo terceiro quartil ().
Agora, para os bigodes, há uma regra a seguir: o bigode inferior é definido pelo mínimo da amostra, e o bigode superior é definido pelo máximo da amostra. Isso é feito desde que o tamanho do bigode seja menor que , onde é o intervalo interquartil, e é definido por .
Veja o gráfico de exemplo abaixo.

Então, se o mínimo da amostra for maior que , o bigode inferior é definido pelo mínimo. Caso contrário, é definido por .
Da mesma forma, se o máximo da amostra for menor que , então o bigode superior é definido pelo máximo. Caso contrário, é definido por .
EXEMPLO 1
Construa um gráfico de caixa para o seguinte exemplo:
28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51
RESPONDA:
Conseguimos que o máximo e o mínimo são
A tabela a seguir mostra os dados em ordem crescente:
Dados (em ordem crescente) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
51 |
A mediana é então
A posição do 25º percentil é
Então, nós entendemos
A posição do 75º percentil é
Então, nós entendemos
Portanto, o resumo de 5 números é
O intervalo interquartil, neste caso, é . Conseqüentemente,
Observe que o mínimo é 19 e é maior que . E o máximo é 51, e é inferior a .
Concluímos que o bigode inferior é o mínimo, e o bigode superior é o máximo neste caso. Graficamente

EXEMPLO 2
Encontre o gráfico de caixa para a mesma amostra do exemplo anterior, mas quando você substituir "51" por "81".
RESPONDA:
Conseguimos que o máximo e o mínimo são
A tabela a seguir mostra os dados em ordem crescente:
Dados (em ordem crescente) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
81 |
A mediana é então
A posição do 25º percentil é
Então, nós entendemos
A posição do 75º percentil é
Então, nós entendemos
Portanto, o resumo de 5 números é
O intervalo interquartil, neste caso, é . Conseqüentemente,
Observe que o mínimo é 19 e é maior que . Mas agora o máximo é 81, que excede . Portanto, o valor "81" é um outlier.
Concluímos que o bigode inferior é o mínimo, e o bigode superior é definido por . Graficamente

Mais sobre o Boxplot
A principal questão que as pessoas têm é o que os boxplots dizem a você. O que eles representam. E a resposta é simples: eles fornecem uma representação resumida da distribuição de uma amostra, fornecendo um gráfico esquemático que mostra a posição relativa do Resumo de 5 números .
Dessa forma, você pode procurar outliers , você pode avaliar o grau de assimetria da distribuição e pode escanear rapidamente as regiões com 25%, 50% e 75% da distribuição total.
Diferença entre Box-plot e Histograma
Uma das coisas sobre o gráfico de caixa é que ele fornece informações ligeiramente diferentes das informações fornecidas por um histograma.
Na verdade, o histograma mostra a forma bruta da distribuição, com base nas classes usadas para classificar os valores possíveis da variável aleatória. Por outro lado, o boxplot fornece informações resumidas sobre os quartis e o resumo de 5 números, que diz muito sobre a posição relativa do primeiro e do terceiro quartil em relação à mediana.
Em outras palavras, o boxplot, ao contrário do histograma, apresenta um gráfico que representa um resumo da distribuição , em vez de uma representação bruta. Os únicos valores brutos que entrariam em um boxplot seriam os outliers (se houver).
Formulários
A aplicação mais clássica do gráfico de caixa é para detectar outliers. Por definição, o gráfico de caixa limita o tamanho dos bigodes a 1,5 vezes o intervalo interquartil das extremidades da caixa (que são definidas por e .
Portanto, qualquer ponto que ultrapasse o tamanho máximo dos bigodes será anotado no box-plot e será considerado um outlier.
Pratique os conceitos que você aprendeu neste tutorial usando este fabricante de box-plot . Outro criador de gráficos que permitirá ver em um vislumbre as propriedades distributivas da distribuição de uma amostra é este fabricante de histograma , ou isto Criador de plotagem de caule e folha .