Tutoriels statistiques: Le guide définitif des centiles - Toutes les astuces du livre
C'est un bon sujet pour un tutoriel car le concept de centile a tendance à être déroutant, en raison du fait que des informations plutôt déroutantes sont parfois fournies aux étudiants, et il existe de nombreuses conventions qui pourraient parfois être trompeuses et même tout simplement erronées. Dans les paragraphes suivants, nous écarterons le concept de centile de manière précise, pour que vous sachiez exactement de quoi nous parlons.
Distribution cumulative
Tout d'abord, nous devons être clairs sur la définition du percentile, qui est associée au concept de distribution cumulative. Pour une variable aléatoire X, la fonction de distribution cumulative associée est définie comme
\[{{F}_{X}}\left( x \right)=\Pr \left( X\le x \right)\]C'est, pour une valeur donnée X , la fonction de distribution cumulative associée est la probabilité que la variable aléatoire soit inférieure ou égale à X . Notez que le symbole utilisé X car l'argument est un argument de fonction générique. Si nous écrivons \({{F}_{X}}\left( y \right)\), nous entendons la distribution cumulative à la valeur de y (qui correspond à la probabilité que la variable aléatoire soit inférieure ou égale à y ), ou si nous écrivons \({{F}_{X}}\left( 4 \right)\) nous entendons la distribution cumulative à 4 (qui correspond à la probabilité que la variable aléatoire soit inférieure ou égale à 4).
Avec une telle définition, il est clair que \({{F}_{X}}\) est une fonction qui prend des valeurs de 0 à 1 (car elle provient d'une probabilité) et qu'elle n'est pas décroissante (c'est-à-dire qu'elle augmente ou reste constante, mais elle ne diminue jamais) , mais ce qui est moins évident, et qui peut être prouvé à partir des axiomes de probabilité, toute fonction de distribution cumulative \({{F}_{X}}\) se comporte assez bien, car elle est continue à droite (ce qui signifie très grossièrement que la fonction est soit continue, soit qu'elle peut avoir "sauts" .... c'est plus compliqué que ça, mais pour l'instant on peut penser de cette façon). En général, les variables aléatoires qui prennent une plage continue de valeurs auront une fonction cumulative continue \({{F}_{X}}\) tandis que les variables aléatoires qui prennent une plage discrète de valeurs auront des "sauts" dans le graphique de leur \({{F}_{X}}\) associé.
Qu'est-ce qu'un centile?
Nous pouvons maintenant définir un centile. Pour \(\alpha \in \left[ 0,1 \right]\), nous définissons un percentile \(\alpha\) comme \({{P}_{\alpha }}\), de sorte que
\[\Pr \left( X\le {{P}_{\alpha }} \right)=\alpha\]En langage humain, un percentile \(\alpha\) est un point de sorte que la probabilité que la variable aléatoire soit inférieure ou égale à ce point soit exactement \(\alpha\). Par exemple, un centile de 0,10 est un point dans la distribution de sorte que la probabilité que la variable aléatoire soit inférieure ou égale à ce point est exactement de 0,10. En règle générale, au lieu de demander, par exemple, le centile 0,10, on vous demandera le centile 10%, ou le 10e centile. Ce sont de simples notations dont il faut tenir compte.
Un percentile \({{P}_{\alpha }}\) pour une variable aléatoire X est bien défini lorsque la fonction de distribution cumulative \({{F}_{X}}\left( x \right)\) est continue. Si \({{F}_{X}}\left( x \right)\) a des "sauts" dans son graphique, alors il pourrait être un peu plus difficile de définir certaines valeurs de centile. C'est pourquoi les centiles sont bien définis pour les variables aléatoires continues (telles que la distribution normale, la distribution exponentielle, etc.), mais cela peut être difficile pour les variables discrètes (comme le Poisson, le Binomial, etc.).
Comment calculer un centile?
Tout d'abord, vous devez connaître la fonction cumulative \({{F}_{X}}\). Donc, pour \(\alpha\) entre 0 et 1, nous devons résoudre pour \(x\):
\[\alpha ={{F}_{X}}\left( x \right)\]Observez que la résolution de x l'équation ci-dessus équivaut à l'intersection de la courbe \( F_{X}(x)\) avec la droite \(y=\alpha\) (qui est parallèle à l'axe des x). Lorsque \({{F}_{X}}\) est continu, l'intersection entre la ligne \(y=\alpha\) et \({{F}_{X}}\left( x \right)\) existe, mais ce n'est pas nécessairement vrai pour toutes les valeurs de \(\alpha\) pour un \({{F}_{X}}\left( x \right)\) non continu.
Un percentile est un paramètre ou une statistique?
Pour la définition que nous avons fournie, un percentile est un paramètre de population, car il dépend strictement de la fonction de distribution et non des données d'échantillon. C'est là que surgit la confusion. Parfois, les élèves reçoivent des échantillons de données et sont invités à calculer un centile. En réalité, ce qu'on leur demande de calculer est un percentile d'échantillon, une statistique qui est calculée à l'aide de données d'échantillonnage, et dont nous espérons que ce sera une bonne estimation du correspondant. percentile de la population.