Tutorial statistici: la guida definitiva ai percentili: tutti i trucchi del libro
Questo è un buon argomento per un tutorial perché il concetto di percentile tende a creare confusione, a causa del fatto che a volte vengono fornite informazioni confuse agli studenti, e ci sono molte convenzioni intorno che a volte potrebbero essere fuorvianti e persino sbagliate. Nei paragrafi seguenti supereremo il concetto di percentile in modo preciso, in modo che tu sappia esattamente di cosa stiamo parlando.
Distribuzione cumulativa
Prima di tutto, dobbiamo essere chiari sulla definizione di percentile, che è associata al concetto di distribuzione cumulativa. Per una variabile casuale X, la funzione di distribuzione cumulativa associata è definita come
\[{{F}_{X}}\left( x \right)=\Pr \left( X\le x \right)\]Questo è, per un dato valore X , la funzione di distribuzione cumulativa associata è la probabilità che la variabile casuale sia minore o uguale a X . Notare che il simbolo utilizzato X poiché l'argomento è un argomento di funzione generico. Se scriviamo \({{F}_{X}}\left( y \right)\) intendiamo la distribuzione cumulativa al valore di y (che corrisponde alla probabilità che la variabile casuale sia minore o uguale a y ), oppure se scriviamo \({{F}_{X}}\left( 4 \right)\) intendiamo la distribuzione cumulativa a 4 (che corrisponde alla probabilità che la variabile casuale sia minore o uguale a 4).
Con tale definizione, è chiaro che \({{F}_{X}}\) è una funzione che assume valori da 0 a 1 (poiché deriva da una probabilità) e non è decrescente (cioè, o aumenta o rimane costante, ma non diminuisce mai) , ma ciò che è meno ovvio e che può essere dimostrato dagli assiomi della probabilità, qualsiasi funzione di distribuzione cumulativa \({{F}_{X}}\) si comporta abbastanza bene, in quanto è continua a destra (che in modo molto approssimativo significa che la funzione è continua o può potenzialmente avere "salti" .... è più complicato di così, ma per ora puoi pensare così). In generale, le variabili casuali che accettano un intervallo continuo di valori avranno una funzione cumulativa continua \({{F}_{X}}\) mentre le variabili casuali che accettano un intervallo discreto di valori avranno "salti" nel grafico dei loro associati \({{F}_{X}}\).
Cos'è un percentile?
Ora possiamo definire un percentile. Per \(\alpha \in \left[ 0,1 \right]\), definiamo un percentile \(\alpha\) come \({{P}_{\alpha }}\), in modo che
\[\Pr \left( X\le {{P}_{\alpha }} \right)=\alpha\]Nel linguaggio umano, un percentile \(\alpha\) è un punto in modo che la probabilità che la variabile casuale sia minore o uguale a quel punto è esattamente \(\alpha\). Ad esempio, uno 0,10 percentile è un punto nella distribuzione in modo che la probabilità che la variabile casuale sia minore o uguale a quel punto è esattamente 0,10. In genere, invece di chiedere, ad esempio, lo 0,10 percentile, ti verrà chiesto il 10% percentile o il 10 ° percentile. Queste sono semplici notazioni di cui dovresti essere a conoscenza.
Un percentile \({{P}_{\alpha }}\) per una variabile casuale X è ben definito quando la funzione di distribuzione cumulativa \({{F}_{X}}\left( x \right)\) è continua. Se \({{F}_{X}}\left( x \right)\) ha "salti" nel suo grafico, potrebbe essere un po 'più difficile definire alcuni valori percentili. Questo è il motivo per cui i percentili sono ben definiti per le variabili casuali continue (come la distribuzione normale, la distribuzione esponenziale, ecc.), Ma può essere difficile per le variabili discrete (come Poisson, Binomiale, ecc.).
Come calcolare è un percentile?
Innanzitutto, devi conoscere la funzione cumulativa \({{F}_{X}}\). Quindi, per \(\alpha\) compreso tra 0 e 1 dobbiamo risolvere per \(x\):
\[\alpha ={{F}_{X}}\left( x \right)\]Osserva che la risoluzione per x l'equazione sopra è la stessa che interseca la curva \( F_{X}(x)\) con la linea \(y=\alpha\) (che è parallela all'asse x). Quando \({{F}_{X}}\) è continuo, l'intersezione tra la linea \(y=\alpha\) e \({{F}_{X}}\left( x \right)\) esiste, ma ciò non è necessariamente vero per tutti i valori di \(\alpha\) per un \({{F}_{X}}\left( x \right)\) non continuo.
Un percentile è un parametro o una statistica?
Per la definizione che abbiamo fornito, un percentile è un parametro di popolazione, in quanto dipende strettamente dalla funzione di distribuzione e non da dati campionari. È qui che sorge la confusione. A volte agli studenti vengono forniti dati di esempio per calcolare un percentile. In realtà, ciò che viene chiesto loro di calcolare è un percentile campione, una statistica che viene calcolata utilizzando dati campione e che ci auguriamo sia una buona stima del corrispondente. percentile della popolazione.