L'utilisation de la notation dans les statistiques de base - Partie II
Ceci est un suivi de la section précédente , où les notations les plus courantes pour les statistiques descriptives ont été présentées. Il est essentiel de comprendre comment la notation est utilisée, car la notation en mathématiques et en statistique est utilisée comme raccourcis , et en tant que tel, si vous ne comprenez pas leur signification, vous serez bientôt perdu et VRAIMENT ne comprenant pas de quoi on parle.
Dans les paragraphes suivants, nous continuerons cette série en essayant de clarifier l'utilisation de la notation dans les statistiques inférentielles, où des notations plus abondantes et sophistiquées sont utilisées, et par conséquent, vous devez faire attention à ce qui vient.
Notation dans les statistiques inférentielles
Les symboles et notations suivants sont couramment utilisés lors de l'utilisation des statistiques inférentielles. Ces symboles sont toujours utilisés dans la plupart de votre classe Statistiques.
· \(\mu\): C'est le symbole générique qui représente la moyenne de la population. Il s'agit d'un paramètre (car il s'agit d'une constante qui n'est pas construite avec des informations d'exemple). Parfois, \(\mu\) est livré avec un sous-indice pour représenter la moyenne de la population dont nous parlons. Par exemple, si nous voyons \({{\mu }_{X}}\), ce symbole fait référence à la moyenne de population de la variable aléatoire \(X\). En termes généraux, si\(f\left( x \right)\) est la variable aléatoire de distribution (densité) \(X\), la moyenne de la population est calculée avec l'expression suivante:
\[{{\mu }_{X}}=\int\limits_{-\infty }^{\infty }{x\,f\left( x \right)dx}\]
dans le cas d'une variable aléatoire continue, ou
\[{{\mu }_{X}}=\sum\limits_{k}{{{x}_{k}}f\left( {{x}_{k}} \right)}\]
pour le cas d'une distribution discrète.
Quelques points à garder à l'esprit: bien que \(\mu\) soit le symbole générique pour désigner la moyenne de la population, certaines distributions utilisent habituellement des symboles différents. Par exemple, si X est une variable aléatoire de Poisson, la tradition consiste à utiliser \(\lambda\) comme symbole de la moyenne de la population. La chose importante à garder à l'esprit est que ce n'est qu'une notation, c'est une CONVENTION.
· \({{\sigma }^{2}}\): C'est la variance de la population, qui est calculée comme
\[{{\sigma }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\mu }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}\]
Il s'agit d'un paramètre de population, car il s'agit d'un nombre fixe (et non d'une variable aléatoire) qui n'est pas construit à partir des informations de l'échantillon). Comme pour la moyenne de la population, il est habituel d'ajouter un sous-indice pour représenter la variable sous-jacente. Autrement dit, \(\sigma _{X}^{2}\) représente la variance de population de la variable aléatoire X, tandis que \(\sigma _{Y}^{2}\) représente la variance de population de la variable aléatoire Y.
Encore une fois, comme dans le cas précédent, il s'agit d'une NOTATION (ou d'un raccourci, si vous voulez) la plus courante pour écrire la variance de la population. Mais il y a des cas où la tradition consiste à utiliser autre chose. Par exemple, si X a une distribution de Poisson, nous avons mentionné précédemment que la moyenne de la population est appelée \(\lambda\), et il s'avère que lors du calcul de la variance de la population, nous trouvons qu'elle est également égale à \(\lambda\). Dans ce cas, nous écririons \(\sigma _{X}^{2}=\lambda\). Alors, s'il vous plaît, s'il vous plaît, ne vous méprenez pas entre un notation une partie de \(\sigma _{X}^{2}=\lambda\) et la partie calcul de \(\sigma _{X}^{2}=\lambda\).
· \(\sigma\): il s'agit de l'écart-type de la population, qui est calculé en prenant la racine carrée de la variance de la population, ou simplement en utilisant la formule ci-dessous,
\[\sigma =\sqrt{\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}}\]
Il s'agit d'un paramètre, car il s'agit d'un nombre fixe qui n'est pas construit avec des informations d'exemple.
· \({{H}_{0}}\): C'est la notation pour le hypothèse nulle . Dans les tests d'hypothèse, l'hypothèse nulle est l'hypothèse d'absence d'effet
· \({{H}_{A}}\): C'est la notation pour le hypothèse alternative . Dans le test d'hypothèse, l'hypothèse alternative est l'hypothèse qui peut être prouvée si les données de l'échantillon sont suffisamment improbables, si l'hypothèse nulle Ho était vraie
· \(\Theta\): C'est un symbole moins couramment utilisé, et il représente l'ensemble de toutes les valeurs possibles pour le paramètre de population. Par exemple, si X est une variable aléatoire normalement distribuée, avec une variance de population de \({{\sigma }^{2}}=1\) et une moyenne de population inconnue \(\mu\), l'ensemble de toutes les valeurs possibles qui peuvent être prises par \(\mu\) est la ligne réelle entière. Donc, en d'autres termes, nous aurions dans ce cas que \(\Theta =\left( -\infty ,\infty \right)\).
· \({{\Theta }_{0}}\): Dans le contexte du symbole ci-dessus, ce symbole représente les valeurs possibles prises par un paramètre de population comme indiqué dans l'hypothèse nulle d'un test d'hypothèse. Par exemple, supposons que X est une variable aléatoire normalement distribuée, avec une variance de population de \({{\sigma }^{2}}=1\) et une moyenne de population inconnue, et nous souhaitons tester les hypothèses nulles et alternatives suivantes:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
Dans ce cas, nous aurions que \({{\Theta }_{0}}=\left\{ 0 \right\}\) .
· \({{\Theta }_{A}}\): à l'instar des symboles précédents, ce symbole représente les valeurs possibles prises par un paramètre de population comme indiqué dans l'hypothèse alternative d'un test d'hypothèse. Par exemple, supposons que X est une variable aléatoire normalement distribuée, avec une variance de population de \({{\sigma }^{2}}=1\) et une moyenne de population inconnue, et nous souhaitons tester les hypothèses nulles et alternatives suivantes:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
Dans ce cas, nous aurions que \({{\Theta }_{A}}=\left( -\infty ,0 \right)\cup \left( 0,\infty \right)\) . Notez que par définition, nous devons avoir ce \(\Theta ={{\Theta }_{0}}\cup {{\Theta }_{A}}\).
· \(\rho\): Cela correspond à la corrélation de population entre les variables X et Y. Afin d'être plus explicite sur les variables impliquées, la notation peut être écrite comme \(\rho \left( X,Y \right)\) ou même \({{\rho }_{X,Y}}\).
· \(\pi\): Bien que non universel, ce symbole est utilisé pour représenter une proportion de la population. Dans ce sens, \({{\pi }_{1}}\) représentera la proportion de population (pour une variable catégorielle) dans la population 1, etc. \(p\) est la notation la plus couramment utilisée pour représenter une proportion de population.
· \(\sim\): Le symbole "tilde" est utilisé pour représenter qu'une certaine variable aléatoire a une distribution spécifiée. Par exemple, si nous voyons: \(X\tilde{\ }Poisson\left( \lambda \right)\), nous l'interprétons comme: "X est une variable aléatoire qui a une distribution de Poisson avec une moyenne \(\lambda\)".