La règle empirique et autres règles en statistique

Dans n'importe quelle classe Statistics, vous constaterez très fréquemment que certaines «règles» sont communément mentionnées. Ces règles visent généralement à vous simplifier la vie et à vous aider à faciliter certains calculs. Mais toutes ces règles ne sont pas égales. En fait, toutes ces règles ne sont pas de véritables "règles", car certaines ne sont que des approximations et, en tant que telles, peuvent avoir un usage spécifique uniquement, voire parfois une utilisation limitée.

Dans les paragraphes suivants, nous discuterons de quelques-unes de ces règles et approximations statistiques couramment utilisées. Celles-ci sont assez simples en général, mais vous devez savoir exactement comment les utiliser de la manière prévue.

Règle empirique pour la distribution normale

C'est de loin l'une des «règles» les plus connues des statistiques. Je continue d'écrire "règle" avec des guillemets, car ce n'est pas vraiment une règle mais une approximation. La règle empirique stipule que si une variable est normalement distribuée, environ 68% de la distribution est à l'intérieur d'un écart-type de la moyenne, 95% de la distribution est à moins de deux écarts-types de la moyenne et 99,7% de la distribution est à moins de trois écarts types de la moyenne.

Tout d'abord, voyons pourquoi cela a du sens. L'événement qui correspond aux valeurs situées dans un écart type de la moyenne est \(\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}\), et si nous normalisons (soustrayons par \(\mu\) et divisons par \(\sigma\)), nous obtenons les événements équivalents suivants:

\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}\]

Mais, si \(X\) est normalement distribué avec la moyenne \(\mu\) et l'écart type \(\sigma\), nous savons que la variable \(\frac{X-\mu }{\sigma}\) a une distribution normale standard (c'est une distribution normale avec une moyenne de 0 et un écart-type de 1). Typiquement, la variable \(\frac{X-\mu }{\sigma}\) est écrite comme \(Z\), alors ce que nous avons est

\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}=\left\{ -1\le Z\le 1 \right\}\]

où \(Z\) a une distribution normale standard. Si nous utilisons une calculatrice ou un tableur comme Excel, nous constatons que la probabilité de l'événement qui correspond aux valeurs qui se trouvent dans un écart type de la moyenne est

\[Pr \left( \mu -\sigma \le X\le \mu +\sigma \right)=\Pr \left( -1\le \frac{X-\mu }{\sigma }\le 1 \right)=\Pr \left( -1\le Z\le 1 \right)\] \[=\Pr \left( Z\le 1 \right)-\Pr \left( Z\le -1 \right)\approx 0.\text{841345}-0.\text{158655}\approx 0.\text{682689}\]

Ainsi, le vrai pourcentage de valeurs dans un écart type de la moyenne est quelque chose comme 68,2689492%, ce qui n'est encore qu'une approximation, mais cette approximation est bien meilleure que les 68% indiqués par la règle empirique.

De même, nous pouvons calculer que

\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)=\Pr \left( -2\le \frac{X-\mu }{\sigma }\le 2 \right)=\Pr \left( -2\le Z\le 2 \right)\] \[=\Pr \left( Z\le 2 \right)-\Pr \left( Z\le -2 \right)\approx 0.\text{977249868}-0.0\text{2275}0\text{132}\approx 0.\text{9544997}\]

Ainsi, le vrai pourcentage de valeurs à l'intérieur de deux écarts-types de la moyenne est quelque chose comme 95,4499736% (environ), mais cette approximation est bien meilleure que les 95% indiqués par la règle empirique.

Enfin, nous pouvons calculer que

\[\Pr \left( \mu -3\sigma \le X\le \mu +3\sigma \right)=\Pr \left( -3\le \frac{X-\mu }{\sigma }\le 3 \right)=\Pr \left( -3\le Z\le 3 \right)\] \[=\Pr \left( Z\le 3 \right)-\Pr \left( Z\le -3 \right)\approx 0.\text{99865}0\text{1}0\text{2}-0.00\text{1349898}\approx 0.\text{9973}00\text{2}\]

Ainsi, le pourcentage réel de valeurs à l'intérieur de deux écarts-types de la moyenne est d'environ 99,7300204%, mais cette approximation est encore plus précise que les 99,7% indiqués par la règle empirique.

Mise en garde: Certains manuels ne diront même pas qu'il s'agit d'une approximation, et ils diront peut-être que «68% de la distribution se situe à un écart-type de la moyenne, 95% de la distribution est à deux écarts-types de la moyenne et 99,7% de la distribution est à moins de trois écarts-types de la moyenne ", comme si c'était un nombre exact. Cela peut vous prêter à confusion car lorsque vous effectuez le calcul sur Excel (ou en utilisant les tables de probabilités normales au dos de votre livre), vous constaterez que 68%, 95% et 99,7% ne sont pas réellement précis. Assurez-vous de l'utiliser dans vos tests ou vos devoirs exactement comme votre instructeur vous a dit de le faire, mais n'oubliez pas que ce n'est QU'UNE APPROXIMATION.

La règle du pouce pour l'écart type

Cette règle est une autre approximation approximative utilisée pour estimer l'écart type en utilisant la plage. La règle dit que l'écart type peut être approximé avec la formule suivante:

\[s\approx \frac{Range}{4}\]

Facile. Dans certains cas ou applications, vous n'aurez pas accès aux données elles-mêmes, mais vous connaîtrez la plage. Si tel est le cas, il vous suffit de prendre une plage et de la diviser par 4.

Règle de Chebyshev

C'est une très belle règle. Eh bien, c'est en fait une inégalité. C'est une sorte de règle empirique, mais elle s'applique à TOUTES les distributions (oui, vous avez bien entendu), pas seulement à la distribution normale. La règle de Chebyshev fournit une limite inférieure pour le pourcentage de la distribution qui sera dans k écarts types par rapport à la moyenne. En effet, nous avons cela

\[\Pr \left( \mu -k\sigma \le X\le \mu +k\sigma \right)\ge 1-\frac{1}{{{k}^{2}}}\]

Que dit la règle de Chebyshev pour \(k = 2\)? Ça dit

\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)\ge 1-\frac{1}{{{2}^{2}}}=0.75\]

C'est: Au moins 75% de la distribution se situe à moins de 2 écarts-types de la moyenne . Dites-vous bien. A quoi cela sert-il? Vous pensez peut-être que vous saviez quelque chose de bien mieux grâce à la règle empirique. Oui, vous saviez que 95% (ou environ 95%) de la distribution se situe à moins de 2 écarts-types de la moyenne. Qu'est-ce que ce 75% puant a à dire ici. Oui, les 95% sont corrects, mais cela fonctionne UNIQUEMENT pour les distributions normales. L'affirmation selon laquelle au moins 75% de la distribution est à moins de 2 écarts-types de la moyenne obtenue avec le travail de règle de Chebyshev pour TOUTES les distributions ...... Assez dit.

Ce tutoriel vous est offert gracieusement par MyGeekyTutor.com