Die Verwendung der Notation in der Basisstatistik - Teil I.
Eine Sache, die die Schüler sehr häufig verwirrt, und ich würde mehr als nötig sagen, ist die liberale Verwendung der mathematischen Notation, die in der Statistik selbst auf grundlegenden Ebenen vorkommt. In den meisten Fällen verwenden Ausbilder Notationen, bei denen sich die Schüler nicht sicher sind. Zu Recht sehen Lehrer in der Verwendung der Notation eine Möglichkeit, Ideen präzise, eindeutig und kompakter auszudrücken. Und wenn sich Ideen aufbauen, kann die Verwendung der Notation komplizierter werden oder so kompliziert, dass die Schüler verwirrt sind und den Staub beißen.
In den folgenden Abschnitten werden wir versuchen, die Verwendung der Notation in der Statistik von unten nach oben zu klären, von Notationen in den grundlegendsten deskriptiven Statistiken bis zur Notation, die in komplexeren Hypothesentests verwendet wird.
Notation in der beschreibenden Statistik
Die folgenden Symbole werden häufig bei der Arbeit mit beschreibenden Statistiken verwendet. Diese Symbole werden in den meisten Ihrer Statistikklassen weiterhin verwendet.
\(\bar{X}\): Dies ist der Stichprobenmittelwert, der dem arithmetischen Durchschnitt des Werts aus einer Stichprobe \({{X}_{1}}\), \({{X}_{2}}\),...,\({{X}_{n}}\) entspricht. Dies ist eine Statistik (da sie mit Beispielinformationen erstellt wurde). In einigen Kursen, insbesondere in den Sozial- und Verhaltenswissenschaften, wird \(M\) verwendet, um auf den Stichprobenmittelwert zu verweisen.
\({s}^{2}\): Dies ist die Stichprobenvarianz, die als berechnet wird
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
Dies ist eine Statistik (da sie mit Beispielinformationen erstellt wurde). Es gibt andere Versionen der obigen Formel, aber alle führen zu demselben numerischen Wert.
\(s\): Dies ist die Standardabweichung der Stichprobe, die berechnet wird, indem die Quadratwurzel der Stichprobenvarianz gezogen wird oder einfach die obige Formel verwendet wird, die aus den Beispieldaten berechnet wird. \({X}_{1}\), __XYZ_C __, ..., __ XYZ_D__
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
Dies ist eine Statistik (da sie mit Beispielinformationen erstellt wurde). Es gibt andere Versionen der obigen Formel, aber alle führen zu demselben numerischen Wert.
\(SS\): Dies ist die "Summe der Quadrate". Diese Statistik misst die quadratische Variation einer Variablen \(X\) in Bezug auf den Stichprobenmittelwert. Wenn Sie ein Beispiel \({{X}_{1}}\), __XYZ_D __, ..., __ XYZ_E__ haben, lautet die zur Berechnung verwendete Formel
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]Oft wird ein Index verwendet, um anzugeben, auf welche Variable wir uns beziehen, wenn nicht klar. Sie können beispielsweise \(S{{S}_{X}}\) schreiben, um sich auf die Summe der Quadrate der Variablen \(X\) zu beziehen, oder Sie können \(S{{S}_{Y}}\) schreiben, um sich auf die Summe der Quadrate der Variablen Y zu beziehen. In den Sozial- und Verhaltenswissenschaften schreiben Sie normalerweise die Summe der Quadrate von \(X\) als \(SS_{XX}\) anstelle von \(SS_{X}\), aber es geht einfach darum, welche bevorzugte Notation sinnvoller ist. Es gibt andere Ausdrücke, die äquivalent sind, wenn es darum geht, die Summe der Quadrate auszudrücken. Hier haben wir zum Beispiel zwei alternative Möglichkeiten, um die Summe der Quadrate zu schreiben:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
Basierend auf dem oben Gesagten besteht ein klarer Zusammenhang zwischen der Stichprobenvarianz und der Summe der Quadrate:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
Beachten Sie, dass die Notation manchmal übermäßig und manchmal inkonsistent ist. In der Tat ist es sehr üblich, einen Index für die Summe der Quadrate zu verwenden (wie in \(S{{S}_{XX}}\)), um anzugeben, auf welche Variable wir uns beziehen (in diesem Fall \(X\)). Im Fall der Varianz oder Standardabweichung ist eine solche Verwendung von Indizes zwar weniger verbreitet, aber immer noch akzeptabel. Sie können beispielsweise \({{s}_{X}}\) schreiben, um die Standardabweichung der Stichprobe \(X\) anzugeben, oder genauer gesagt, \({{s}_{X}}\) gibt die Standardabweichung der Stichprobe an, die aus der Stichprobe \({{X}_{1}}\), __XYZ_E __, ..., __ XYZ_F__ berechnet wurde, die aus der Zufallsvariablen \(X\) stammt.
\(m\): Stichprobenmedian. Der Punkt (oder interpolierte Punkt), der die Mitte der Verteilung festlegt. Es gibt keine allgemeine Übereinstimmung darüber, den Stichprobenmedian als \(m\) zu bezeichnen, aber es ist eine gängige Praxis.
\({{Q}_{j}}\): Dies ist das j th Quartil mit \(j=1,2,3,4\). Dies sind die Punkte (oder interpolierten Punkte), die die Verteilung in Viertel teilen. Beachten Sie, dass \({{Q}_{2}}\) der Median ist.
\({{P}_{x}}\): Dies ist das x-te Perzentil mit \(0\le x\le 100\). Dies sind die Punkte (oder interpolierten Punkte), sodass x Prozent der Verteilung links von diesen Punkten liegen. Beachten Sie, dass \(m={{Q}_{2}}={{P}_{50}}\).
IQR: Dies ist das Interquartilbereich und es ist definiert als \(IQR={{Q}_{3}}-{{Q}_{1}}\), was der Unterschied zwischen dem dritten und dem ersten Quartil ist. Dies wird üblicherweise als Maß für die Streuung und zur Erkennung von Ausreißern verwendet.
Andere beschreibende Statistiken: Es gibt viele weniger häufig verwendete beschreibende Statistiken, für die keine universellen Symbole verwendet werden können. Zum Beispiel werden manchmal Schiefe, Kurtorsis, Momente höherer Ordnung usw. verwendet, aber nicht kompakte Symbole werden allgemein verwendet, um sie zu kennzeichnen.