La regola empirica e altre regole nella statistica
In qualsiasi classe di statistica troverai molto spesso che certe "regole" sono comunemente indicate. Queste regole di solito hanno lo scopo di semplificarti la vita e aiutarti a rendere più facili alcuni calcoli. Ma non tutte queste regole sono uguali. In effetti, non tutte queste regole sono vere e proprie "regole", poiché alcune sono solo approssimazioni e, come tali, possono avere solo un uso specifico, o talvolta anche un uso limitato.
Nei paragrafi seguenti discuteremo alcune di quelle regole e approssimazioni di Stats che sono comunemente usate. Questi sono abbastanza semplici in generale, ma devi sapere esattamente come usarli nel modo previsto.
Regola empirica per la distribuzione normale
Questa è di gran lunga una delle "regole" più conosciute in statistica. Continuo a scrivere "regola" tra virgolette, perché questa non è realmente una regola ma un'approssimazione. La regola empirica afferma che se una variabile è distribuita normalmente, circa il 68% della distribuzione è entro una deviazione standard della media, il 95% della distribuzione è entro due deviazioni standard della media e il 99,7% della distribuzione è entro tre deviazioni standard della media.
Prima di tutto, vediamo perché questo ha senso. L'evento che corrisponde ai valori che sono all'interno di una deviazione standard della media è e se normalizziamo (sottraiamo per e dividiamo per ), otteniamo i seguenti eventi equivalenti:
Ma, se è normalmente distribuito con media e deviazione standard , sappiamo che la variabile ha una distribuzione normale standard (questa è una distribuzione normale con media 0 e deviazione standard 1). In genere, la variabile viene scritta come , quindi ciò che abbiamo è
dove ha una distribuzione normale standard. Se usiamo una calcolatrice, o un programma di fogli di calcolo come Excel, troviamo che la probabilità dell'evento che corrisponde ai valori che sono all'interno di una deviazione standard della media è
Quindi, la vera percentuale di valori all'interno di una deviazione standard della media è qualcosa come 68,2689492%, che è ancora solo un'approssimazione, ma questa approssimazione è molto migliore del 68% dichiarato dalla regola empirica.
Allo stesso modo, possiamo calcolarlo
Quindi, la vera percentuale di valori all'interno di due deviazioni standard della media è qualcosa come 95,4499736% (circa), ma questa approssimazione è molto migliore del 95% dichiarato dalla regola empirica.
Infine, possiamo calcolarlo
Quindi, la vera percentuale di valori all'interno di due deviazioni standard della media è approssimativamente qualcosa come 99,7300204% ma questa approssimazione è ancora più accurata del 99,7% dichiarato dalla regola empirica.
Attenzione: Alcuni libri di testo non diranno nemmeno che questa è un'approssimazione e potrebbero dire che "il 68% della distribuzione è entro una deviazione standard della media, il 95% della distribuzione è entro due deviazioni standard della media e il 99,7% della la distribuzione è entro tre deviazioni standard della media ", come se fosse un numero esatto. Ciò potrebbe causare confusione perché quando effettui il calcolo su Excel (o utilizzando normali tabelle di probabilità dal retro del tuo libro), scoprirai che 68%, 95% e 99,7% non sono effettivamente accurati. Assicurati di usarlo nei tuoi test o compiti a casa esattamente come il tuo istruttore ti ha detto di farlo, ma non dimenticare che è SOLO UN APPROSSIMAZIONE.
La regola pratica per la deviazione standard
Questa regola è un'altra approssimazione approssimativa utilizzata per stimare la deviazione standard utilizzando l'intervallo. La regola dice che la deviazione standard può essere approssimata con la seguente formula:
Semplice. In alcuni casi o applicazioni non avrai accesso ai dati stessi, ma conoscerai la portata. In questo caso, tutto ciò che devi fare è prendere a l'intervallo e dividere per 4.
Regola di Chebyshev
Questa è una regola molto bella. Ebbene, in realtà è una disuguaglianza. È una sorta di regola empirica, ma si applica a TUTTE le distribuzioni (sì, hai sentito bene), non solo alla distribuzione normale. La regola di Chebyshev fornisce un limite inferiore per la percentuale della distribuzione che sarà all'interno K deviazioni standard dalla media. In effetti, ce l'abbiamo
Cosa dice la regola di Chebyshev per ? Dice
Questo è: Almeno il 75% della distribuzione è entro 2 deviazioni standard dalla media . Hai detto bene. A cosa serve? Potresti pensare di conoscere qualcosa di molto meglio dalla regola empirica. Sì, sapevi che il 95% (o circa il 95%) della distribuzione è entro 2 deviazioni standard dalla media. Cosa ha da dire questo puzzolente 75% qui. Sì, il 95% è giusto, ma funziona SOLO per le distribuzioni normali. L'affermazione che almeno il 75% della distribuzione è entro 2 deviazioni standard dalla media ottenuta con la regola di Chebyshev funziona per TUTTE le distribuzioni ... Detto abbastanza.