Gráfico de caixa e bigode


O Box and Whisker Plot, ou também conhecido como Box-plot, é um tipo de representação gráfica de uma amostra, que fornece fácil visualização das principais características da distribuição de uma amostra.

Um gráfico de caixa e bigode fornece a mediana, bem como o primeiro e o terceiro quartis em sua "caixa", e o mínimo e o máximo em "bigode".

Quando o mínimo ou máximo são muito extremos, "aparamos" o bigode e anotamos a existência de um outlier.

Exemplo de box-plot

No gráfico acima, você tem um exemplo de como um boxplot se parece: Você tem a "caixa" e os bigodes.

A linha inferior da caixa é definida pelo primeiro quartil (Q1Q_1).

A linha do meio da caixa é definida pela mediana (Q2Q_2).

A linha superior da caixa é definida pelo terceiro quartil (Q3Q_3).

Agora, para os bigodes, há uma regra a seguir: o bigode inferior é definido pelo mínimo da amostra, e o bigode superior é definido pelo máximo da amostra. Isso é feito desde que o tamanho do bigode seja menor que 1.5×IQR1.5 \times IQR, onde IQRIQR é o intervalo interquartil, e é definido por IQR=Q3Q1IQR = Q_3 - Q_1.

Veja o gráfico de exemplo abaixo.

Boxplot e quartis

Então, se o mínimo da amostra for maior que Q11.5×IQRQ_1 - 1.5 \times IQR, o bigode inferior é definido pelo mínimo. Caso contrário, é definido por Q11.5×IQRQ_1 - 1.5 \times IQR.

Da mesma forma, se o máximo da amostra for menor que Q3+1.5×IQRQ_3 + 1.5 \times IQR, então o bigode superior é definido pelo máximo. Caso contrário, é definido por Q3+1.5×IQRQ_3 + 1.5 \times IQR.


EXEMPLO 1

Construa um gráfico de caixa para o seguinte exemplo:

28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51

RESPONDA:

Conseguimos que o máximo e o mínimo são

min=19\min = 19 max=51\max = 51

A tabela a seguir mostra os dados em ordem crescente:

Dados (em ordem crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

51

A mediana é então

Median=37+382=37.5Median=\frac{{37}+{38}}{2}=37.5

A posição do 25º percentil é

L25=P100×(n+1)=25100×(50+1)=12.75{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}

Então, nós entendemos

Q1=30+0.75×(3230)=31.5{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}

A posição do 75º percentil é

L75=P100×(n+1)=75100×(50+1)=38.25{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}

Então, nós entendemos

Q3=41+0.25×(4141)=41{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}

Portanto, o resumo de 5 números é

min=19,Q1=31.5,Q2=37.5,Q3=41,max=51\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51

O intervalo interquartil, neste caso, é IQR=Q3Q1=4131.5=9.5IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5. Conseqüentemente,

Q11.5×IQR=31.51.5×9.5=17.25Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25

Q3+1.5×IQR=41+1.5×9.5=55.25Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25

Observe que o mínimo é 19 e é maior que Q11.5×IQR=17.25Q_1 - 1.5 \times IQR = 17.25. E o máximo é 51, e é inferior a Q3+1.5×IQR=55.25Q_3 + 1.5 \times IQR = 55.25.

Concluímos que o bigode inferior é o mínimo, e o bigode superior é o máximo neste caso. Graficamente

Gráfico de caixa para o exemplo # 1

EXEMPLO 2

Encontre o gráfico de caixa para a mesma amostra do exemplo anterior, mas quando você substituir "51" por "81".

RESPONDA:

Conseguimos que o máximo e o mínimo são

min=19\min = 19 max=81\max = 81

A tabela a seguir mostra os dados em ordem crescente:

Dados (em ordem crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

81

A mediana é então

Median=37+382=37.5Median=\frac{{37}+{38}}{2}=37.5

A posição do 25º percentil é

L25=P100×(n+1)=25100×(50+1)=12.75{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}

Então, nós entendemos

Q1=30+0.75×(3230)=31.5{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}

A posição do 75º percentil é

L75=P100×(n+1)=75100×(50+1)=38.25{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}

Então, nós entendemos

Q3=41+0.25×(4141)=41{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}

Portanto, o resumo de 5 números é

min=19,Q1=31.5,Q2=37.5,Q3=41,max=81\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81

O intervalo interquartil, neste caso, é IQR=Q3Q1=4131.5=9.5IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5. Conseqüentemente,

Q11.5×IQR=31.51.5×9.5=17.25Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25

Q3+1.5×IQR=41+1.5×9.5=55.25Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25

Observe que o mínimo é 19 e é maior que Q11.5×IQR=17.25Q_1 - 1.5 \times IQR = 17.25. Mas agora o máximo é 81, que excede Q3+1.5×IQR=55.25Q_3 + 1.5 \times IQR = 55.25. Portanto, o valor "81" é um outlier.

Concluímos que o bigode inferior é o mínimo, e o bigode superior é definido por Q3+1.5×IQR=55.25Q_3 + 1.5 \times IQR = 55.25. Graficamente

Box plot exemplo 2

Mais sobre o Boxplot

A principal questão que as pessoas têm é o que os boxplots dizem a você. O que eles representam. E a resposta é simples: eles fornecem uma representação resumida da distribuição de uma amostra, fornecendo um gráfico esquemático que mostra a posição relativa do Resumo de 5 números .

Dessa forma, você pode procurar outliers , você pode avaliar o grau de assimetria da distribuição e pode escanear rapidamente as regiões com 25%, 50% e 75% da distribuição total.

Diferença entre Box-plot e Histograma

Uma das coisas sobre o gráfico de caixa é que ele fornece informações ligeiramente diferentes das informações fornecidas por um histograma.

Na verdade, o histograma mostra a forma bruta da distribuição, com base nas classes usadas para classificar os valores possíveis da variável aleatória. Por outro lado, o boxplot fornece informações resumidas sobre os quartis e o resumo de 5 números, que diz muito sobre a posição relativa do primeiro e do terceiro quartil em relação à mediana.

Em outras palavras, o boxplot, ao contrário do histograma, apresenta um gráfico que representa um resumo da distribuição , em vez de uma representação bruta. Os únicos valores brutos que entrariam em um boxplot seriam os outliers (se houver).

Formulários

A aplicação mais clássica do gráfico de caixa é para detectar outliers. Por definição, o gráfico de caixa limita o tamanho dos bigodes a 1,5 vezes o intervalo interquartil (IQR)(IQR) das extremidades da caixa (que são definidas por Q1Q_1 e Q3Q_3.

Portanto, qualquer ponto que ultrapasse o tamanho máximo dos bigodes será anotado no box-plot e será considerado um outlier.

Pratique os conceitos que você aprendeu neste tutorial usando este fabricante de box-plot . Outro criador de gráficos que permitirá ver em um vislumbre as propriedades distributivas da distribuição de uma amostra é este fabricante de histograma , ou isto Criador de plotagem de caule e folha .

Conecte-se

Não tem uma conta de membro?
inscrever-se

redefinir senha

De volta a
Conecte-se

inscrever-se

De volta a
Conecte-se