Come trattare il teorema del limite centrale ed è correlato alla distribuzione normale?
Ci deve essere un motivo per cui la distribuzione normale è così popolare. Voglio dire, se consideriamo che una distribuzione normale con media \(\mu\) e varianza \({{\sigma }^{2}}\) ha una funzione di densità come quella mostrata sotto
\[f\left( x \right)=\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)\]
allora si deve pensare che sia popolare non proprio per la semplicità della sua funzione di densità.
Manipolazione della distribuzione normale
In effetti, gli studenti di Stats temono di dover affrontare la distribuzione normale per quanto riguarda la sua manipolazione algebrica perché, concesso, può essere ingombrante. Ad esempio, la funzione di densità \(f\left( x \right)\) presentata sopra è effettivamente una densità, poiché si può dimostrare (sebbene non sia elementare farlo) che
\[\int\limits_{-\infty }^{\infty }{\frac{1}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=1\]
E poiché questa densità \(f\left( x \right)\) è una densità valida, allora dobbiamo avere quella
\[\int\limits_{-\infty }^{\infty }{\frac{x}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}=\mu\]
and\[\int\limits_{-\infty }^{\infty }{\frac{{{x}^{2}}}{\sqrt{2\pi {{\sigma }^{2}}}}\exp \left( -\frac{{{\left( x-\mu \right)}^{2}}}{2{{\sigma }^{2}}} \right)dx}={{\mu }^{2}}+{{\sigma }^{2}}\]
che non sono banali da provare (soprattutto l'ultima). Quindi, sì, è difficile trattare algebricamente la distribuzione normale. Ma allora, perché è così popolare ??
Distribuzione normale standard e punteggi Z.
Una buona ragione, che è probabilmente una ragione abbastanza forte di per sé, è che tramite un file standardizzazione processo, possiamo ridurre QUALSIASI distribuzione normale \(N\left( \mu ,{{\sigma }^{2}} \right)\) alla distribuzione normale standard, con è la distribuzione normale che ha una media di zero e una deviazione standard di 1, o \(N\left( 0,1 \right)\). La standardizzazione consiste nel ridurre la variabile originale X a z-score utilizzando la seguente espressione:
\[Z=\frac{X-\mu }{\sigma }\]
In effetti, si può dimostrare che se X ha una distribuzione normale con media \(\mu\) e varianza \({{\sigma }^{2}}\), \(N\left( \mu ,{{\sigma }^{2}} \right)\), allora \(Z\) definita come
\[Z=\frac{X-\mu }{\sigma}\]
ha anche una distribuzione normale, ma con media 0 e deviazione standard 1. Questa piccola riduzione risulta essere ESTREMAMENTE efficiente, perché utilizzando possiamo ridurre il calcolo di QUALSIASI probabilità di distribuzione normale al calcolo delle probabilità per la distribuzione normale standard. Ti sei mai chiesto perché il retro dei libri di testo Stats viene fornito con tabelle di distribuzione normale SOLO per la distribuzione normale standard? È perché tutte le distribuzioni normali possono essere ridotte alle distribuzioni normali standard, tramite z-score, e sarebbe davvero poco pratico, o impossibile, stampare TUTTE le tabelle possibili per tutte le distribuzioni normali possibili.
Esempio: Supponiamo che il peso medio dei bambini in quinta elementare sia di 72 libbre, con una deviazione standard di 8 libbre, e che la distribuzione segua la distribuzione normale. Calcola la probabilità che un bambino casuale pesa meno di 75,5 libbre.
Soluzione: Osserva che l'evento \(X<75.5\) può essere espresso in modo equivalente come
\[X-72<75.5-72\]
Perché? Perché abbiamo semplicemente sottratto 72 a entrambi i lati della disuguaglianza, il che non cambia le soluzioni della disuguaglianza. Seguendo lo stesso ragionamento, posso dividere entrambi i lati per 8 per ottenere un evento equivalente
\[\frac{X-72}{8}<\frac{75.5-72}{8}\]
PER FAVORE, NON FARSI CONFUSO QUI: Tutto quello che stiamo dicendo è che se X è una soluzione di \(X<75.5\), allora X è anche una soluzione di \(X-72<75.5-72\), e quindi X è anche una soluzione di \(\frac{X-72}{8}<\frac{75.5-72}{8}\). E viceversa, se X è una soluzione di \(\frac{X-72}{8}<\frac{75.5-72}{8}\), allora X è anche una soluzione di \(X-72<75.5-72\) e X è anche una soluzione di \(X<75.5\). Questo è ciò che intendiamo quando diciamo che gli eventi \(\left\{ X<75.5 \right\}\), \(\left\{ X-72<75.5-72 \right\}\) e \(\left\{ \frac{X-72}{8}<\frac{75.5-72}{8} \right\}\) sono EQUIVALENTI (ovvero, definiscono lo stesso insieme di soluzioni).
Pertanto, in questo esempio, dobbiamo calcolare la seguente probabilità:
\[\Pr \left( X<75.5 \right)=\Pr \left( \frac{X-72}{8}<\frac{75.5-72}{8} \right)=\Pr \left( Z<0.4375 \right)=0.6691\]
Come puoi vedere, standard con una certa distribuzione normale, ho effettuato la trasformazione per ottenere un evento equivalente che coinvolge un punteggio Z, quindi posso utilizzare qualsiasi tabella di distribuzione normale standard (o Excel) per calcolare la probabilità finale.
Teorema del limite centrale (CLT)
Se quanto sopra non fosse una ragione abbastanza forte per farti AMARE la distribuzione normale (nonostante la sua ingombrante forma algebrica), ti darò una ragione per cui non puoi resistere. Si scopre che ci sono molti tipi di distribuzioni di probabilità (voglio dire, MOLTE), che possono avere proprietà completamente diverse dalla distribuzione normale. Ma, se prendi le ripetizioni di una variabile casuale, da QUALSIASI distribuzione, e calcoli la loro media, quelle medie saranno (cosa ne pensi?) Pericolosamente somiglianti a una distribuzione normale, specialmente quando la dimensione del campione (numero di ripetizioni) è grande .
Quindi, il processo di prendere le medie di un campione di valori provenienti da QUALSIASI distribuzione di probabilità e ora analizzando la distribuzione di quelle medie, iniziamo a vedere una distribuzione normale (quando la dimensione del campione è grande). In qualche modo, prendere le medie piega la forma originale della distribuzione e la trasforma in normale, INDIPENDENTEMENTE dalla distribuzione sottostante. Questo fatto è una delle scoperte più sorprendenti in statistica, fatta da Carl Friederich Gauss. Una parola di cautela, il teorema del limite centrale ha una formulazione statistica formale, che non includeremo qui, ma afferma che il campione media CONVERGE a una distribuzione normale, in un certo senso di probabilità. Senza entrare in troppi dettagli tecnici, ciò significa che per la maggior parte dei casi, le medie campionarie hanno una distribuzione normale APPROSSIMATIVA per una dimensione del campione sufficientemente grande. È fin troppo comune che a volte gli istruttori diano un'interpretazione sbagliata dicendo che la distribuzione delle medie campionarie DIVENTA una distribuzione normale, il che non è vero in generale (in realtà, è vero solo quando la distribuzione originale sottostante è normale).
Ecco perché la distribuzione normale è molto apprezzata: è perché ha questo tipo di proprietà magica che prendendo le medie di qualsiasi distribuzione ti ritroverai con qualcosa che sembra abbastanza normale, se prendi una dimensione del campione abbastanza grande.