L'uso della notazione nelle statistiche di base - parte I
Una cosa che riceve gli studenti confusi molto frequentemente, e direi più del necessario, è l'uso liberale della notazione matematica che si verifica in statistiche, anche a livelli di base.Più spesso di quanto sarebbe desiderato, gli istruttori usano la notazione che gli studenti non sono sicuri.Giustamente, gli insegnanti vedono nell'uso della notazione un modo per esprimere idee in modo preciso, inequivocabile, più compatto.E mentre le idee si accumulano, l'uso della notazione può diventare più contorto, o abbastanza contorto da lasciare gli studenti confusi e mordere la polvere.
Nei paragrafi seguenti tenteremo di chiarire l'uso della notazione nelle statistiche dal basso verso l'alto, dalle nozioni nelle statistiche descrittive più basilari, alla notazione utilizzata in test più sofisticati ipotesi.
Notazione nelle statistiche descrittive
I seguenti simboli sono comunemente usati quando si lavora con statistiche descrittive.Questi simboli sono ancora utilizzati per la maggior parte della tua classe di statistiche.
\(\bar{X}\): Questa è la media del campione, che corrisponde alla media aritmetica del valore da un campione \({{X}_{1}}\), \({{X}_{2}}\), ..., __ xyz_d__.Questa è statistica (perché è costruita con informazioni campione).In alcuni corsi, specialmente nelle scienze sociali e comportamentali, usano \(M\) per fare riferimento alla media del campione.
\({s}^{2}\): Questa è la variazione del campione, che è calcolata come
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
Questa è statistica (perché è costruita con informazioni campione).Ci sono altre versioni della formula di cui sopra, ma tutti portano allo stesso valore numerico.
\(s\): Questa è la deviazione standard del campione, che viene calcolata prendendo la radice quadrata della varianza del campione o semplicemente utilizzando la formula di cui sopra, che viene calcolata dai dati di esempio \({X}_{1}\), \({{X}_{2}}\), ..., __ xyz_d__
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
Questa è statistica (perché è costruita con informazioni campione).Ci sono altre versioni della formula di cui sopra, ma tutti portano allo stesso valore numerico.
\(SS\): Questa è la "somma dei quadrati".Questa statistica misura la variazione squadrata di una variabile \(X\) rispetto alla media del campione.Se hai un esempio \({{X}_{1}}\), \({X}_{2}\), ..., __ xyz_e__, la formula utilizzata per calcolarlo
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]Spesso, un pedice viene utilizzato per indicare quale variabile ci riferiamo, se non chiara.Ad esempio, è possibile scrivere \(S{{S}_{X}}\) per fare riferimento alla somma dei quadrati di variabile \(X\), oppure è possibile scrivere \(S{{S}_{Y}}\) per fare riferimento alla somma dei quadrati di variabile Y. Nelle scienze sociali e comportamentali, in genere scriverai la somma dei quadrati di \(X\)Come \(SS_{XX}\) invece di \(SS_{X}\) ma è tutto semplicemente su quale sia la notazione preferita che abbia più senso.Ci sono altre espressioni che sono equivalenti quando si tratta di esprimere la somma dei quadrati.Ad esempio, qui abbiamo due modi alternativi per scrivere la somma dei quadrati:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
Sulla base di quanto sopra, c'è un collegamento chiaro tra la varianza del campione e la somma dei quadrati:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
Si noti che la notazione a volte è eccessiva, e talvolta è incoerente.Infatti, è molto comune utilizzare un indice per la somma dei quadrati (come in \(S{{S}_{XX}}\)) per indicare quale variabile ci riferiamo a (\(X\) in questo caso).Sebbene, nel caso della varianza o della deviazione standard tale uso dei sottoscrittori sia meno comune, anche se ancora accettabile.Ad esempio, è possibile scrivere \({{s}_{X}}\) per specificare la deviazione standard del campione di variabile \(X\), o più precisamente detta, \({{s}_{X}}\) indica la deviazione standard di esempio calcolata dal campione \({{X}_{1}}\), \({{X}_{2}}\), ..., __ xyz_f__ che proviene dalla variabile casuale \(X\).
\(m\): campione mediano.Il punto (o punto interpolato) che stabilisce il centro della distribuzione.Non c'è un accordo universale sul fatto di fare riferimento al campione mediano come \(m\), ma è una pratica comune.
\({{Q}_{j}}\): Questo è il j ns Quartile, con \(j=1,2,3,4\).Questi sono i punti (o punti interpolati) che dividono la distribuzione in alloggi.Si noti che \({{Q}_{2}}\) è la mediana.
\({{P}_{x}}\): Questo è il X-Th percentile, con \(0\le x\le 100\).Questi sono i punti (o punti interpolati) in modo che x percentuale della distribuzione sia a sinistra di quei punti.Osservare che \(m={{Q}_{2}}={{P}_{50}}\).
IQR: Questo è il intervallo interquartile , ed è definito come \(IQR={{Q}_{3}}-{{Q}_{1}}\), che è la differenza tra i terzi e i primi quartili.Questo è comunemente usato come misura di dispersione e rilevare i valori anomali.
Altre statistiche descrittive: ci sono molte statistiche descrittive meno comunemente utilizzate per le quali non ci sono simboli universali da utilizzare.Ad esempio, la discesa, il kurtorisis, i momenti di ordine superiore, ecc. A volte vengono utilizzati, ma i simboli non compatti sono universalmente usati per denunciarli.