Box und Whisker Plot


Das Box- und Whisker-Diagramm, oder auch als Box-Diagramm bezeichnet, ist eine Art grafische Darstellung einer Stichprobe, die leicht erkennbare Hauptmerkmale der Verteilung einer Stichprobe bietet.

Ein Box-and-Whisker-Plot liefert den Median sowie das erste und dritte Quartil in seiner "Box" und das Minimum und Maximum im "Whisker".

Wenn das Minimum oder Maximum zu extrem ist, "trimmen" Sie den Whisker und wir kommentieren die Existenz eines Ausreißers.

Beispiel eines Boxplots

In der obigen Grafik sehen Sie ein Beispiel dafür, wie ein Boxplot aussieht: Sie haben die "Box" und die Whisker.

Die unterste Zeile der Box wird durch das erste Quartil (\(Q_1\)) definiert.

Die mittlere Zeile des Feldes wird durch den Median (\(Q_2\)) definiert.

Die oberste Zeile der Box wird durch das dritte Quartil (\(Q_3\)) definiert.

Für die Whisker gilt nun eine Regel: Der untere Whisker wird durch das Minimum der Probe und der obere Whisker durch das Maximum der Probe definiert. Dies wird vorausgesetzt, dass die Größe des Whiskers kleiner als \(1.5 \times IQR\) ist, wobei \(IQR\) der Interquartilbereich ist und durch \(IQR = Q_3 - Q_1\) definiert ist.

Siehe das Beispieldiagramm unten.

Boxplot und Quartile

Wenn also das Minimum der Probe größer als \(Q_1 - 1.5 \times IQR\) ist, wird der untere Whisker durch das Minimum definiert. Andernfalls wird es durch \(Q_1 - 1.5 \times IQR\) definiert.

Wenn das Maximum der Probe kleiner als \(Q_3 + 1.5 \times IQR\) ist, wird der obere Whisker durch das Maximum definiert. Andernfalls wird es durch \(Q_3 + 1.5 \times IQR\) definiert.


BEISPIEL 1

Erstellen Sie ein Box-Plot für das folgende Beispiel:

28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51

ANTWORTEN:

Wir bekommen, dass das Maximum und das Minimum sind

\[\min = 19\] \[\max = 51\]

Die folgende Tabelle zeigt die Daten in aufsteigender Reihenfolge:

Daten (in aufsteigender Reihenfolge)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

51

Der Median ist dann

\[Median=\frac{{37}+{38}}{2}=37.5\]

Die Position des 25. Perzentils ist

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Dann bekommen wir das

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

Die Position des 75. Perzentils ist

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Dann bekommen wir das

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Daher ist die 5-Zahlen-Zusammenfassung

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]

Der Interquartilbereich ist in diesem Fall \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Daher,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Beachten Sie, dass das Minimum 19 beträgt und größer als \(Q_1 - 1.5 \times IQR = 17.25\) ist. Und das Maximum ist 51 und es ist niedriger als \(Q_3 + 1.5 \times IQR = 55.25\).

Wir schließen daraus, dass der untere Whisker das Minimum und der obere Whisker in diesem Fall das Maximum ist. Grafisch

Boxplot zum Beispiel # 1

BEISPIEL 2

Suchen Sie das Box-Diagramm für dasselbe Beispiel aus dem vorherigen Beispiel, aber wenn Sie "51" durch "81" ersetzen.

ANTWORTEN:

Wir bekommen, dass das Maximum und das Minimum sind

\[\min = 19\] \[\max = 81\]

Die folgende Tabelle zeigt die Daten in aufsteigender Reihenfolge:

Daten (in aufsteigender Reihenfolge)

19

28

29

30

30

30

30

30

30

30

30

30

32

33

34

35

35

35

36

36

36

37

37

37

37

38

38

38

38

39

39

39

39

39

40

40

40

41

41

42

42

42

42

42

43

43

46

46

46

81

Der Median ist dann

\[Median=\frac{{37}+{38}}{2}=37.5\]

Die Position des 25. Perzentils ist

\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]

Dann bekommen wir das

\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]

Die Position des 75. Perzentils ist

\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]

Dann bekommen wir das

\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]

Daher ist die 5-Zahlen-Zusammenfassung

\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]

Der Interquartilbereich ist in diesem Fall \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\). Daher,

\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)

\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)

Beachten Sie, dass das Minimum 19 beträgt und größer als \(Q_1 - 1.5 \times IQR = 17.25\) ist. Aber jetzt ist das Maximum 81, was \(Q_3 + 1.5 \times IQR = 55.25\) überschreitet. Daher ist der Wert "81" ein Ausreißer.

Wir schließen daraus, dass der untere Whisker das Minimum ist und der obere Whisker durch \(Q_3 + 1.5 \times IQR = 55.25\) definiert ist. Grafisch

Boxplot Beispiel 2

Mehr zum Boxplot

Die Hauptfrage der Leute ist, was Boxplots Ihnen sagen. Was repräsentieren sie. Und die Antwort ist einfach: Sie geben Ihnen eine zusammengefasste Darstellung der Verteilung einer Stichprobe, indem sie ein schematisches Diagramm bereitstellen, das die relative Position der Stichprobe zeigt 5-Inhalts-Zusammenfassung .

Auf diese Weise können Sie nach suchen Ausreißer Sie können den Grad der Schiefe der Verteilung beurteilen und schnell Bereiche scannen, die 25%, 50% und 75% der Gesamtverteilung ausmachen.

Unterschied zwischen Box-Plot und Histogramm

Eines der Dinge am Box-Plot ist, dass es Informationen liefert, die sich geringfügig von den Informationen eines Histogramms unterscheiden.

In der Tat zeigt das Histogramm die Rohform der Verteilung basierend auf den Klassen, die zur Klassifizierung der möglichen Werte der Zufallsvariablen verwendet werden. Auf der anderen Seite bietet das Boxplot zusammengefasste Informationen zu den Quartilen und die 5-Zahlen-Zusammenfassung, die viel über die relative Position des ersten und dritten Quartils in Bezug auf den Median aussagen.

Mit anderen Worten, das Boxplot zeigt im Gegensatz zum Histogramm ein Diagramm, das a darstellt Zusammenfassung der Verteilung eher als eine rohe Darstellung. Die einzigen Rohwerte, die in einem Boxplot enthalten wären, wären die Ausreißer (falls vorhanden).

Anwendungen

Die klassischste Anwendung für das Box-Plot ist die Erkennung von Ausreißern. Per Definition begrenzt das Box-Plot die Größe der Whisker auf das 1,5-fache des Interquartilbereichs \((IQR)\) von den Enden der Box (die durch \(Q_1\) und \(Q_3\) definiert sind).

Alle Punkte, die über die maximale Größe der Whisker hinausgehen, werden im Box-Plot mit Anmerkungen versehen und als Ausreißer betrachtet.

Üben Sie die Konzepte, die Sie in diesem Tutorial gelernt haben, indem Sie diese verwenden Box-Plot-Hersteller . Ein weiterer Grafiker, der es ermöglicht, die Verteilungseigenschaften der Verteilung einer Stichprobe auf einen Blick zu sehen, ist dieser Histogrammhersteller , oder dieses Stiel-Blatt-Plot-Hersteller .

Einloggen

Sie haben noch kein Mitgliedskonto?
Anmelden

Passwort zurücksetzen

Anmelden
Einloggen

Anmelden

Anmelden
Einloggen