Gráfico de caixa e bigode


O Box and Whisker Plot, ou também conhecido como Box-plot, é um tipo de representação gráfica de uma amostra, que fornece fácil visualização das principais características da distribuição de uma amostra.

Um gráfico de caixa e bigode fornece a mediana, bem como o primeiro e o terceiro quartis em sua "caixa", e o mínimo e o máximo em "bigode".

Quando o mínimo ou máximo são muito extremos, "aparamos" o bigode e anotamos a existência de um outlier.

Exemplo de box-plot

No gráfico acima, você tem um exemplo de como um boxplot se parece: Você tem a "caixa" e os bigodes.

A linha inferior da caixa é definida pelo primeiro quartil (\(Q_1\)).

A linha do meio da caixa é definida pela mediana (\(Q_2\)).

A linha superior da caixa é definida pelo terceiro quartil (\(Q_3\)).

Agora, para os bigodes, há uma regra a seguir: o bigode inferior é definido pelo mínimo da amostra, e o bigode superior é definido pelo máximo da amostra. Isso é feito desde que o tamanho do bigode seja menor que \(1.5 \times IQR\), onde \(IQR\) é o intervalo interquartil, e é definido por \(IQR = Q_3 - Q_1\).

Veja o gráfico de exemplo abaixo.

Boxplot e quartis

Então, se o mínimo da amostra for maior que \(Q_1 - 1.5 \times IQR\), o bigode inferior é definido pelo mínimo. Caso contrário, é definido por \(Q_1 - 1.5 \times IQR\).

Da mesma forma, se o máximo da amostra for menor que \(Q_3 + 1.5 \times IQR\), então o bigode superior é definido pelo máximo. Caso contrário, é definido por \(Q_3 + 1.5 \times IQR\).


EXEMPLO 1

Construa um gráfico de caixa para o seguinte exemplo:

28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51

RESPONDA:

Conseguimos que o máximo e o mínimo são

\[\min = 19\] \[\max = 51\]

A tabela a seguir mostra os dados em ordem crescente:

Dados (em ordem crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

51

A mediana é então

\[Median=\frac{{37}+{38}}{2}=37.5\]

A posição do 25º percentil é

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Então, nós entendemos

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

A posição do 75º percentil é

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Então, nós entendemos

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Portanto, o resumo de 5 números é

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]

O intervalo interquartil, neste caso, é \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Conseqüentemente,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Observe que o mínimo é 19 e é maior que \(Q_1 - 1.5 \times IQR = 17.25\). E o máximo é 51, e é inferior a \(Q_3 + 1.5 \times IQR = 55.25\).

Concluímos que o bigode inferior é o mínimo, e o bigode superior é o máximo neste caso. Graficamente

Gráfico de caixa para o exemplo # 1

EXEMPLO 2

Encontre o gráfico de caixa para a mesma amostra do exemplo anterior, mas quando você substituir "51" por "81".

RESPONDA:

Conseguimos que o máximo e o mínimo são

\[\min = 19\] \[\max = 81\]

A tabela a seguir mostra os dados em ordem crescente:

Dados (em ordem crescente)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

81

A mediana é então

\[Median=\frac{{37}+{38}}{2}=37.5\]

A posição do 25º percentil é

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Então, nós entendemos

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

A posição do 75º percentil é

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Então, nós entendemos

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Portanto, o resumo de 5 números é

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]

O intervalo interquartil, neste caso, é \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Conseqüentemente,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Observe que o mínimo é 19 e é maior que \(Q_1 - 1.5 \times IQR = 17.25\). Mas agora o máximo é 81, que excede \(Q_3 + 1.5 \times IQR = 55.25\). Portanto, o valor "81" é um outlier.

Concluímos que o bigode inferior é o mínimo, e o bigode superior é definido por \(Q_3 + 1.5 \times IQR = 55.25\). Graficamente

Box plot exemplo 2

Mais sobre o Boxplot

A principal questão que as pessoas têm é o que os boxplots dizem a você. O que eles representam. E a resposta é simples: eles fornecem uma representação resumida da distribuição de uma amostra, fornecendo um gráfico esquemático que mostra a posição relativa do Resumo de 5 números .

Dessa forma, você pode procurar outliers , você pode avaliar o grau de assimetria da distribuição e pode escanear rapidamente as regiões com 25%, 50% e 75% da distribuição total.

Diferença entre Box-plot e Histograma

Uma das coisas sobre o gráfico de caixa é que ele fornece informações ligeiramente diferentes das informações fornecidas por um histograma.

Na verdade, o histograma mostra a forma bruta da distribuição, com base nas classes usadas para classificar os valores possíveis da variável aleatória. Por outro lado, o boxplot fornece informações resumidas sobre os quartis e o resumo de 5 números, que diz muito sobre a posição relativa do primeiro e do terceiro quartil em relação à mediana.

Em outras palavras, o boxplot, ao contrário do histograma, apresenta um gráfico que representa um resumo da distribuição , em vez de uma representação bruta. Os únicos valores brutos que entrariam em um boxplot seriam os outliers (se houver).

Formulários

A aplicação mais clássica do gráfico de caixa é para detectar outliers. Por definição, o gráfico de caixa limita o tamanho dos bigodes a 1,5 vezes o intervalo interquartil \((IQR)\) das extremidades da caixa (que são definidas por \(Q_1\) e \(Q_3\).

Portanto, qualquer ponto que ultrapasse o tamanho máximo dos bigodes será anotado no box-plot e será considerado um outlier.

Pratique os conceitos que você aprendeu neste tutorial usando este fabricante de box-plot . Outro criador de gráficos que permitirá ver em um vislumbre as propriedades distributivas da distribuição de uma amostra é este fabricante de histograma , ou isto Criador de plotagem de caule e folha .

Conecte-se

Não tem uma conta de membro?
inscrever-se

redefinir senha

De volta a
Conecte-se

inscrever-se

De volta a
Conecte-se