L'utilisation de la notation dans les statistiques de base - Partie I
Une chose qui rend les étudiants confus très fréquemment, et je dirais plus que nécessaire, est l'utilisation libérale de la notation mathématique qui se produit dans les statistiques, même aux niveaux de base. Plus souvent qu'ils ne le souhaiteraient, les instructeurs utilisent une notation dont les étudiants ne sont pas sûrs. À juste titre, les enseignants voient dans l'utilisation de la notation une manière d'exprimer des idées d'une manière précise, sans équivoque et plus compacte. Et à mesure que les idées s'accumulent, l'utilisation de la notation peut devenir plus alambiquée, ou suffisamment alambiquée pour laisser les élèves confus et mordre la poussière.
Dans les paragraphes suivants, nous tenterons de clarifier l'utilisation de la notation en statistique de bas en haut, depuis les notations dans les statistiques descriptives les plus élémentaires, jusqu'à la notation utilisée dans les tests d'hypothèses plus sophistiqués.
Notation dans les statistiques descriptives
Les symboles suivants sont couramment utilisés lors de l'utilisation de statistiques descriptives. Ces symboles sont toujours utilisés dans la plupart de votre classe Statistiques.
\(\bar{X}\): Il s'agit de la moyenne de l'échantillon, qui correspond à la moyenne arithmétique de la valeur d'un échantillon \({{X}_{1}}\), __XYZ_C __, ..., __ XYZ_D__. Il s'agit d'une statistique (car elle est construite avec des exemples d'informations). Dans certains cours, notamment en sciences sociales et comportementales, ils utilisent \(M\) pour désigner la moyenne de l'échantillon.
\({s}^{2}\): Il s'agit de la variance de l'échantillon, qui est calculée comme
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
Il s'agit d'une statistique (car elle est construite avec des exemples d'informations). Il existe d'autres versions de la formule ci-dessus, mais elles conduisent toutes à la même valeur numérique.
\(s\): Il s'agit de l'écart type de l'échantillon, qui est calculé en prenant la racine carrée de la variance de l'échantillon, ou simplement en utilisant la formule ci-dessus, qui est calculée à partir des données de l'échantillon \({X}_{1}\), __XYZ_C __, ..., __ XYZ_D__
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
Il s'agit d'une statistique (car elle est construite avec des exemples d'informations). Il existe d'autres versions de la formule ci-dessus, mais elles conduisent toutes à la même valeur numérique.
\(SS\): C'est la "somme des carrés". Cette statistique mesure la variation au carré d'une variable \(X\) par rapport à la moyenne de l'échantillon. Si vous avez un échantillon \({{X}_{1}}\), __XYZ_D __, ..., __ XYZ_E__, la formule utilisée pour le calculer est
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]Souvent, un indice est utilisé pour indiquer à quelle variable nous nous référons, s'il n'est pas clair. Par exemple, vous pouvez écrire \(S{{S}_{X}}\) pour faire référence à la somme des carrés de la variable \(X\), ou vous pouvez écrire \(S{{S}_{Y}}\) pour faire référence à la somme des carrés de la variable Y. En sciences sociales et comportementales, vous écrirez généralement la somme des carrés de \(X\) comme \(SS_{XX}\) au lieu de \(SS_{X}\) mais il s'agit simplement de savoir quelle est la notation préférée qui a plus de sens. Il existe d'autres expressions équivalentes lorsqu'il s'agit d'exprimer la somme des carrés. Par exemple, nous avons ici deux méthodes alternatives pour écrire la somme des carrés:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
Sur la base de ce qui précède, il existe un lien clair entre la variance de l'échantillon et la somme des carrés:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
Notez que la notation est parfois excessive et parfois incohérente. En effet, il est très courant d'utiliser un indice pour la somme des carrés (comme dans \(S{{S}_{XX}}\)) pour indiquer à quelle variable nous nous référons (\(X\) dans ce cas). Bien que, dans le cas de la variance ou de l'écart type, une telle utilisation d'indices soit moins courante, bien que toujours acceptable. Par exemple, vous pouvez écrire \({{s}_{X}}\) pour spécifier l'écart type d'échantillon de la variable \(X\), ou plus précisément, \({{s}_{X}}\) indique l'écart type d'échantillon calculé à partir de l'échantillon \({{X}_{1}}\), __XYZ_E __, ..., __ XYZ_F__ qui provient de la variable aléatoire \(X\).
\(m\): médiane de l'échantillon. Le point (ou point interpolé) qui définit le milieu de la distribution. Il n'y a pas d'accord universel pour désigner la médiane de l'échantillon comme \(m\), mais c'est une pratique courante.
\({{Q}_{j}}\): C'est le j e quartile, avec \(j=1,2,3,4\). Ce sont les points (ou points interpolés) qui divisent la distribution en quarts. Notez que \({{Q}_{2}}\) est la médiane.
\({{P}_{x}}\): Il s'agit du x-ième centile, avec \(0\le x\le 100\). Ce sont les points (ou points interpolés) de sorte que x pour cent de la distribution se trouve à gauche de ces points. Observez que \(m={{Q}_{2}}={{P}_{50}}\).
IQR: C'est le gamme interquartile , et il est défini comme \(IQR={{Q}_{3}}-{{Q}_{1}}\), qui est la différence entre le troisième et le premier quartiles. Ceci est couramment utilisé comme mesure de dispersion et pour détecter les valeurs aberrantes.
Autres statistiques descriptives: il existe de nombreuses statistiques descriptives moins couramment utilisées pour lesquelles il n'y a pas de symboles universels à utiliser. Par exemple, l'asymétrie, le kurtorsis, les moments d'ordre supérieur, etc. sont parfois utilisés, mais les symboles non compacts ne sont pas universellement utilisés pour les désigner.