L'uso della notazione nella statistica di base - Parte II
Questo è un seguito di sezione precedente , dove sono state presentate le notazioni più comuni per le statistiche descrittive. È fondamentale capire come viene utilizzata la notazione, poiché in matematica e statistica vengono utilizzate come scorciatoie , e come tale, se non capisci il loro significato, sarai presto perso e VERAMENTE non capirai di cosa si sta parlando.
Nei paragrafi seguenti continueremo questa serie, tentando di chiarire l'uso della notazione nella statistica inferenziale, dove vengono utilizzate notazioni più profuse e sofisticate, e di conseguenza dovresti prestare attenzione a ciò che viene.
Notazione in statistica inferenziale
I seguenti simboli e notazioni sono comunemente usati quando si lavora con le statistiche inferenziali. Questi simboli sono ancora utilizzati durante la maggior parte della lezione di statistica.
· \(\mu\): questo è il simbolo generico che rappresenta la media della popolazione. Questo è un parametro (perché è una costante che non è costruita con informazioni di esempio). A volte \(\mu\) viene fornito con un sottoindice per rappresentare la media della popolazione di quale variabile stiamo parlando. Ad esempio, se vediamo \({{\mu }_{X}}\), quel simbolo si riferisce alla media della popolazione della variabile casuale \(X\). In termini generali, se \(f\left( x \right)\) è la variabile casuale di distribuzione (densità) \(X\), la media della popolazione viene calcolata con la seguente espressione:
\[{{\mu }_{X}}=\int\limits_{-\infty }^{\infty }{x\,f\left( x \right)dx}\]
nel caso di una variabile casuale continua, o
\[{{\mu }_{X}}=\sum\limits_{k}{{{x}_{k}}f\left( {{x}_{k}} \right)}\]
per il caso di una distribuzione discreta.
Un paio di cose da tenere a mente: sebbene \(\mu\) sia il simbolo generico per riferirsi alla media della popolazione, ci sono alcune distribuzioni che usano abitualmente simboli diversi. Ad esempio, se X è una variabile casuale di Poisson, la tradizione è di utilizzare \(\lambda\) come simbolo per la media della popolazione. La cosa importante da tenere a mente è che è solo una notazione, questa è, una CONVENZIONE.
· \({{\sigma }^{2}}\): questa è la varianza della popolazione, calcolata come
\[{{\sigma }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\mu }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}\]
Questo è il parametro della popolazione, perché è un numero fisso (non una variabile casuale) che non è costruito dalle informazioni del campione). Come per la media della popolazione, è consuetudine aggiungere un sottoindice per rappresentare la variabile sottostante. Ciò significa che \(\sigma _{X}^{2}\) rappresenta la varianza della popolazione della variabile casuale X, mentre \(\sigma _{Y}^{2}\) rappresenta la varianza della popolazione della variabile casuale Y.
Ancora una volta, come nel caso precedente, questa è una NOTAZIONE più comune (o scorciatoia, se vuoi) per scrivere la varianza della popolazione. Ma ci sono casi in cui la tradizione è quella di usare qualcos'altro. Ad esempio, se X ha una distribuzione di Poisson, abbiamo menzionato prima che la media della popolazione è indicata come \(\lambda\) e risulta che quando si calcola la varianza della popolazione, troviamo che è uguale anche a \(\lambda\). In tal caso, scriveremmo \(\sigma _{X}^{2}=\lambda\). Quindi, per favore, per favore, non confondetevi tra un file notazione parte di \(\sigma _{X}^{2}=\lambda\) e parte di calcolo di \(\sigma _{X}^{2}=\lambda\).
· \(\sigma\): questa è la deviazione standard della popolazione, che viene calcolata prendendo la radice quadrata della varianza della popolazione, o semplicemente usando la formula seguente,
\[\sigma =\sqrt{\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}}\]
Questo è un parametro, perché è un numero fisso che non è costruito con informazioni di esempio.
· \({{H}_{0}}\): questa è la notazione per ipotesi nulla . Nella verifica delle ipotesi, l'ipotesi nulla è l'ipotesi di nessun effetto
· \({{H}_{A}}\): questa è la notazione per ipotesi alternativa . Nella verifica delle ipotesi, l'ipotesi alternativa è l'ipotesi che può essere dimostrata se i dati del campione sono sufficientemente improbabili, se l'ipotesi nulla Ho fosse vera
· \(\Theta\): questo è un simbolo meno comunemente usato e rappresenta l'insieme di tutti i valori possibili per il parametro della popolazione. Ad esempio, se X è una variabile casuale distribuita normalmente, con una varianza della popolazione di \({{\sigma }^{2}}=1\) e una media di popolazione sconosciuta \(\mu\), l'insieme di tutti i valori possibili che possono essere presi da \(\mu\) è l'intera linea reale. Quindi, in altre parole, avremmo in quel caso che \(\Theta =\left( -\infty ,\infty \right)\).
· \({{\Theta }_{0}}\): Nel contesto del simbolo sopra, questo simbolo rappresenta i possibili valori assunti da un parametro di popolazione come dichiarato nell'ipotesi nulla di un test di ipotesi. Ad esempio, supponiamo che X sia una variabile casuale distribuita normalmente, con una varianza della popolazione di \({{\sigma }^{2}}=1\) e una media della popolazione sconosciuta, e siamo interessati a testare le seguenti ipotesi null e alternative:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
In tal caso, avremmo che \({{\Theta }_{0}}=\left\{ 0 \right\}\) .
· \({{\Theta }_{A}}\): Sulla falsariga dei simboli precedenti, questo simbolo rappresenta i possibili valori assunti da un parametro di popolazione come dichiarato nell'ipotesi alternativa di un test di ipotesi. Ad esempio, supponiamo che X sia una variabile casuale distribuita normalmente, con una varianza della popolazione di \({{\sigma }^{2}}=1\) e una media della popolazione sconosciuta, e siamo interessati a testare le seguenti ipotesi null e alternative:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
In tal caso, avremmo che \({{\Theta }_{A}}=\left( -\infty ,0 \right)\cup \left( 0,\infty \right)\) . Si noti che per definizione, abbiamo bisogno di \(\Theta ={{\Theta }_{0}}\cup {{\Theta }_{A}}\).
· \(\rho\): corrisponde alla correlazione della popolazione tra le variabili X e Y. Per essere più espliciti sulle variabili coinvolte, la notazione può essere scritta come \(\rho \left( X,Y \right)\) o anche \({{\rho }_{X,Y}}\).
· \(\pi\): sebbene non universale, questo simbolo viene utilizzato per rappresentare una proporzione di popolazione. In questo modo, \({{\pi }_{1}}\) rappresenterà la proporzione della popolazione (per alcune variabili categoriali) nella popolazione 1, ecc. A volte, un semplice \(p\) viene utilizzato per rappresentare una proporzione della popolazione, ma penso che sia una cattiva idea, sebbene, più o meno, \(p\) è la notazione più comunemente usata per rappresentare una proporzione di popolazione.
· \(\sim\): il simbolo "tilde" viene utilizzato per rappresentare che una certa variabile casuale ha una distribuzione specificata. Ad esempio, se vediamo: \(X\tilde{\ }Poisson\left( \lambda \right)\), lo interpretiamo come: "X è una variabile casuale che ha una distribuzione di Poisson con media \(\lambda\)".