Wie gehe ich mit dem zentralen Grenzwertsatz um und hängt er mit der Normalverteilung zusammen?
Es muss einen Grund geben, warum die Normalverteilung so beliebt ist. Ich meine, wenn wir bedenken, dass eine Normalverteilung mit einem Mittelwert von \(\mu\) und einer Varianz \({{\sigma }^{2}}\) eine Dichtefunktion wie die unten gezeigte hat
\[f\left( x \right)=\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)\]
dann muss man denken, dass es nicht gerade wegen der Einfachheit seiner Dichtefunktion beliebt ist.
Manipulieren der Normalverteilung
In der Tat befürchten Stats-Studenten, sich mit der Normalverteilung in Bezug auf ihre algebraische Manipulation auseinandersetzen zu müssen, da dies zugegebenermaßen umständlich sein kann. Zum Beispiel ist die oben dargestellte Dichtefunktion \(f\left( x \right)\) tatsächlich eine Dichte, wie nachgewiesen werden kann (obwohl dies nicht elementar ist)
\[\int\limits_{-\infty }^{\infty }{\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=1\]
Und da diese Dichte \(f\left( x \right)\) eine gültige Dichte ist, müssen wir diese dann haben
\[\int\limits_{-\infty }^{\infty }{\frac{x}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=\mu\]
and\[\int\limits_{-\infty }^{\infty }{\frac{{{x}^{2}}}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}={{\mu }^{2}}+{{\sigma }^{2}}\]
die nicht trivial zu beweisen sind (vor allem die letzte). Ja, es ist schwierig, algebraisch mit der Normalverteilung umzugehen. Aber warum ist es dann so beliebt?
Standardnormalverteilung und Z-Scores
Ein guter Grund, der für sich genommen wahrscheinlich stark genug ist, ist der über einen sehr einfachen Standardisierung Prozess können wir JEDE Normalverteilung \(N\left( \mu ,{{\sigma }^{2}} \right)\) auf die Standardnormalverteilung reduzieren, wobei die Normalverteilung einen Mittelwert von Null und eine Standardabweichung von 1 hat, oder \(N\left( 0,1 \right)\). Die Standardisierung besteht darin, die ursprüngliche Variable X auf zu reduzieren Z-Scores mit dem folgenden Ausdruck:
\[Z=\frac{X-\mu }{\sigma }\]
In der Tat kann bewiesen werden, dass wenn X eine Normalverteilung mit dem Mittelwert \(\mu\) und der Varianz \({{\sigma }^{2}}\), \(N\left( \mu ,{{\sigma }^{2}} \right)\) hat, \(Z\) definiert ist als
\[Z=\frac{X-\mu }{\sigma}\]
hat auch eine Normalverteilung, aber mit Mittelwert 0 und Standardabweichung 1. Diese kleine Reduzierung erweist sich als EXTREM effizient, da wir durch Verwendung die Berechnung von JEDER Normalverteilungswahrscheinlichkeit auf die Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung reduzieren können. Haben Sie sich überhaupt gefragt, warum die Rückseite der Statistik-Lehrbücher NUR für die Standard-Normalverteilung mit Normalverteilungstabellen geliefert wird? Dies liegt daran, dass alle Normalverteilungen über Z-Scores auf die Standardnormalverteilungen reduziert werden können und es wirklich unpraktisch oder unmöglich wäre, ALLE möglichen Tabellen für alle möglichen Normalverteilungen auszudrucken.
Beispiel: Angenommen, das Durchschnittsgewicht der Kinder in der fünften Klasse beträgt 72 Pfund mit einer Standardabweichung von 8 Pfund, und die Verteilung folgt der Normalverteilung. Berechnen Sie die Wahrscheinlichkeit, dass ein zufälliges Kind weniger als 75,5 Pfund wiegt.
Lösung: Beachten Sie, dass das Ereignis \(X<75.5\) äquivalent ausgedrückt werden kann als
\[X-72<75.5-72\]
Warum? Weil wir einfach 72 zu beiden Seiten der Ungleichung subtrahiert haben, was die Lösungen der Ungleichung nicht verändert. Nach der gleichen Überlegung kann ich beide Seiten durch 8 teilen, um ein gleichwertiges Ereignis zu erhalten
\[\frac{X-72}{8}<\frac{75.5-72}{8}\]
BITTE HIER NICHT VERWIRREN: Wir sagen nur, wenn X eine Lösung von \(X<75.5\) ist, dann ist X auch eine Lösung von \(X-72<75.5-72\) und X ist auch eine Lösung von \(\frac{X-72}{8}<\frac{75.5-72}{8}\). Und umgekehrt, wenn X eine Lösung von \(\frac{X-72}{8}<\frac{75.5-72}{8}\) ist, dann ist X auch eine Lösung von \(X-72<75.5-72\) und X ist auch eine Lösung von \(X<75.5\). Das ist es, was wir meinen, wenn wir sagen, dass die Ereignisse \(\left\{ X<75.5 \right\}\), \(\left\{ X-72<75.5-72 \right\}\) und \(\left\{ \frac{X-72}{8}<\frac{75.5-72}{8} \right\}\) gleichwertig sind (das heißt, sie definieren dieselbe Menge von Lösungen).
Daher müssen wir in diesem Beispiel die folgende Wahrscheinlichkeit berechnen:
\[\Pr \left( X<75.5 \right)=\Pr \left( \frac{X-72}{8}<\frac{75.5-72}{8} \right)=\Pr \left( Z<0.4375 \right)=0.6691\]
Wie Sie sehen können, Standard mit einer bestimmten Normalverteilung, habe ich die Transformation durchgeführt, um ein äquivalentes Ereignis mit einem Z-Score zu erhalten, und dann kann ich jede Standard-Normalverteilungstabelle (oder Excel) verwenden, um die endgültige Wahrscheinlichkeit zu berechnen.
Der zentrale Grenzwertsatz (CLT)
Wenn das oben Genannte nicht stark genug war, um die Normalverteilung zu LIEBEN (trotz ihrer umständlichen algebraischen Form), gebe ich Ihnen einen Grund, dem Sie nicht widerstehen können. Es stellt sich heraus, dass es viele Arten von Wahrscheinlichkeitsverteilungen gibt (ich meine VIELE), die völlig andere Eigenschaften haben können als die Normalverteilung. Wenn Sie jedoch Wiederholungen einer Zufallsvariablen aus JEDER Verteilung nehmen und deren Durchschnitt berechnen, ähneln diese Durchschnittswerte (wie Sie denken?) Gefährlich einer Normalverteilung, insbesondere wenn die Stichprobengröße (Anzahl der Wiederholungen) groß ist .
Wenn wir also Durchschnittswerte einer Stichprobe von Werten aus JEDER Wahrscheinlichkeitsverteilung entnehmen und nun die Verteilung dieser Durchschnittswerte analysieren, sehen wir eine Normalverteilung (wenn die Stichprobengröße groß ist). Durch Mittelwertbildung wird die ursprüngliche Form der Verteilung gebogen und in eine normale, unabhängig von der zugrunde liegenden Verteilung umgewandelt. Diese Tatsache ist eine der erstaunlichsten Entdeckungen in der Statistik von Carl Friederich Gauss. Ein Wort der Vorsicht, der zentrale Grenzwertsatz hat eine formale statistische Formulierung, die wir hier nicht aufnehmen werden, aber er besagt, dass die Durchschnittswerte der Stichprobe in einem bestimmten Wahrscheinlichkeitssinn zu einer Normalverteilung konvergieren. Ohne auf zu viele technische Details einzugehen, bedeutet dies, dass die Stichprobenmittelwerte in den meisten Fällen eine CA.-Normalverteilung für eine ausreichend große Stichprobengröße aufweisen. Es ist nur allzu häufig, dass Ausbilder manchmal die falsche Interpretation geben, indem sie sagen, dass die Verteilung der Stichprobenmittelwerte zu einer Normalverteilung wird, was im Allgemeinen nicht zutrifft (tatsächlich ist dies nur dann der Fall, wenn die zugrunde liegende ursprüngliche Verteilung normal ist).
Deshalb wird die Normalverteilung sehr geschätzt: weil sie diese Art von hat magische Eigenschaft Wenn Sie einen Durchschnitt einer Verteilung nehmen, erhalten Sie etwas, das ziemlich normal aussieht, wenn Sie eine Stichprobengröße nehmen, die groß genug ist.