Tout ce que vous devez savoir sur les tests d'hypothèses: les astuces que vous devez apprendre
Les tests d'hypothèses peuvent être un sujet déroutant, surtout si vous ne connaissez pas bien les fondations. En apprenant quelques principes simples, vous serez en mesure de comprendre tout ce qu'il y a à savoir sur les tests d'hypothèses.
Qu'est-ce qu'un test d'hypothèse?
C'est la première question que nous aborderons. Un test d'hypothèse est un procédure statistique qui utilise des exemples de données pour prendre une décision concernant une certaine revendication, qui implique un certain paramètre de population. Ainsi, les acteurs nécessaires à la conduite d'un test d'hypothèse sont:
(1) Les exemples de données
(2) Une certaine affirmation sur un paramètre de population
Sans aucun des deux ci-dessus, peut tester une hypothèse. Maintenant, allons un peu plus loin et expliquons quels sont ces deux composants principaux
L'échantillon
Rappelons qu'un échantillon est un sous-ensemble plus petit de toute une population. Et, une population est l'ensemble complet des sujets sur lesquels vous souhaitez enquêter. En règle générale, les populations sont importantes, donc si nous voulons faire une déclaration sur une population importante, nous essayons de le faire en sélectionnant un petit échantillon, dans l'espoir que l'échantillon contiendra en quelque sorte des informations sur l'ensemble de la population. Cela semble long, mais cela s'avère vrai dans certains cas.
Notre espoir est qu'en analysant un petit échantillon d'une population, nous pourrons en savoir beaucoup sur la population. Lorsque cela se produit, nous disons que l'échantillon est représentatif de l'ensemble de la population . Mais pas n'importe quel échantillon fera l'affaire. Nous devons collecter quelque chose appelé un échantillon aléatoire . Il existe différentes stratégies de prélèvement d'échantillons aléatoires, selon le type et la taille de la population, mais ce que je veux que vous reteniez maintenant, c'est qu'il existe des procédures assez raisonnables pour produire des échantillons aléatoires, qui devraient être représentatifs de leur population. Et, une fois que vous aurez un échantillon aléatoire, vous utiliserez une procédure utilisant des tests d'hypothèse qui vous aidera à obtenir des informations sur l'ensemble de la population à partir de l'échantillon.
L'affirmation concernant un paramètre de population
Maintenant que vous avez un échantillon, vous avez besoin d'une revendication à tester. Il y a de bonnes et de mauvaises nouvelles. La bonne nouvelle est que les paramètres de population sont de simples nombres, de sorte qu'une affirmation concernant des paramètres de population concerne simplement la valeur potentielle de ce paramètre de population. Ce que je veux dire par là, c'est que les revendications sont très simples d'un point de vue structurel. Par exemple, supposons que vous ayez une variable aléatoire qui est normalement distribuée, avec une moyenne inconnue égale à \(\mu\). Nous aimerions prendre un échantillon de cette population et dire quelque chose sur \(\mu\). Les affirmations sur \(\mu\) sont des affirmations sur ses valeurs potentielles. Je veux dire, quelque chose comme \(\mu =10\) est une réclamation réelle, ou \(\mu <10\) est également une réclamation. Tout ce qui indique un ensemble possible de valeurs pour un paramètre de population est une revendication.
La mauvaise nouvelle est que nous ne pouvons pas tester n'importe quelle réclamation. Pour effectuer un test d'hypothèse et tester une affirmation sur un paramètre de population, nous devons avoir une certaine structure. À savoir, nous ne pouvons travailler qu'avec deux types de revendications, ou dans ce contexte, nous devons définir entre deux hypothèses: l'hypothèse nulle et l'hypothèse alternative. Ces deux hypothèses sont toutes deux des affirmations sur un paramètre de population, avec la particularité que (a) elles ne doivent pas se chevaucher et (b) l'hypothèse nulle doit contenir le signe "=" dedans.
Laisse moi reformuler ça : Si vous souhaitez exécuter un test d'hypothèse vous devez avoir deux hypothèses, l'hypothèse nulle et l'hypothèse alternative. Ces deux hypothèses sont toutes deux des affirmations qui énoncent quelque chose sur la valeur numérique du paramètre de population. L'ensemble des valeurs potentielles du paramètre de population qui sont énoncées dans l'hypothèse nulle NE PEUT PAS avoir de valeur en commun avec l'ensemble des valeurs potentielles du paramètre de population qui sont énoncées dans l'hypothèse alternative. De plus, l'hypothèse nulle doit contenir le signe "=" dans son énoncé algébrique. Par exemple, \(\mu =13\) et \(\mu \le 13\) sont des exemples d'hypothèses nulles, mais \(\mu >10\) ne peut pas être une hypothèse nulle.
Une hypothèse nulle est écrite comme \({{H}_{0}}\) et une hypothèse alternative est écrite comme \({{H}_{A}}\). Un exemple d'un ensemble d'hypothèses correctement défini est
\[\begin{align} & {{H}_{0}}:\mu =10 \\ & {{H}_{A}}:\mu \ne 10 \\ \end{align}\]Mais, par exemple, cet ensemble d'hypothèses n'est pas valide:
\[\begin{align} & {{H}_{0}}:\mu =10 \\ & {{H}_{A}}:\mu \ge 10 \\ \end{align}\]Pourquoi l'ensemble ci-dessus n'est pas valide? Parce que l'ensemble des valeurs possibles indiquées par \({{H}_{0}}\) et \({{H}_{A}}\) se chevauchent (voyez que les hypothèses nulles et alternatives incluent 10 comme valeur possible pour \(\mu\)).
La mécanique d'un test d'hypothèse
Maintenant que vous avez un échantillon et que vous avez des hypothèses nulles et alternatives correctement définies, vous pouvez effectuer un test d'hypothèse. Vous pouvez maintenant calculer un statistique de test , c'est la pièce maîtresse de tout le processus. Une statistique de test est simplement une valeur numérique (aléatoire) qui est calculée à partir des données d'échantillon et des valeurs indiquées dans l'hypothèse. La formule réelle utilisée pour calculer une statistique de test dépend du type de paramètre estimé (par exemple, nous utilisons un type de statistique de test différent lorsque nous testons une moyenne de population \(\mu\) que lorsque nous testons une variance de population \(\sigma\)).
La philosophie, cependant, pour TOUS les tests d'hypothèse est la MÊME. Veuillez garder ceci dans votre tête: la statistique du test est calculée et son résultat est vérifié en supposant que l'hypothèse nulle est vraie. Le principe est donc le suivant: si je suppose que l'hypothèse nulle \({{H}_{0}}\) est vraie, dans quelle mesure les mêmes résultats sont-ils improbables? La philosophie est que si les résultats de l'échantillon sont trop improbables sous l'hypothèse que \({{H}_{0}}\) est vrai, alors nous rejetons \({{H}_{0}}\) comme une option plausible.
La probabilité que les résultats de l'échantillon soient au moins aussi extrêmes que ceux observés peut être généralement calculée (car en supposant généralement que \({{H}_{0}}\) est vrai détermine la valeur du paramètre inconnu qui détermine la distribution de la population), et cette probabilité est appelée valeur p .
Une valeur p faible indique que les résultats de l'échantillon sont inhabituels si nous considérons \({{H}_{0}}\) comme vrai. Mais, à quel point est-il assez bas? Eh bien, nous devons définir un seuil, que nous appelons niveau de signification, ou \(\alpha\). Cette valeur de \(\alpha\) représente le risque que nous sommes prêts à prendre de rejeter une véritable hypothèse nulle.
Résultats d'un test d'hypothèse
Alors enfin, comment donner notre réponse aux hypothèses? Simple, si la valeur p calculée est telle que $ p <\ alpha $, on rejeter l'hypothèse nulle . Sinon, si \(p\ge \alpha\), nous ne pas rejeter l'hypothèse nulle. Observez qu'il n'y a rien de tel que "accepter l'hypothèse nulle". Les données d'échantillon NE PEUVENT PAS prouver l'hypothèse nulle en raison de la manière fondamentale dont elle est construite.
Si l'hypothèse nulle n'est pas rejetée, les données de l'échantillon nous disent «regardez, il ne semble pas que les données de l'échantillon contredisent l'hypothèse nulle, alors retenons-la, pour l'instant au moins».
D'un autre côté, si l'hypothèse nulle est rejetée, les données de l'échantillon nous disent "regardez, les données de l'échantillon semblent être en conflit avec l'hypothèse nulle, il serait donc sage de vérifier votre hypothèse nulle, car elle peut être désactivée ".
Avons-nous bien fait les choses?
Une idée fausse est qu'un test d'hypothèse donnera une réponse infaillible. Cela ne peut pas être plus éloigné de la vérité. La décision concernant le test d'hypothèse (rejeter Ho OU ne pas rejeter Ho) peut être en fait erronée. Faites face au fait, passez en revue.
Comment pouvez-vous vous tromper? En fait, de deux manières: Premièrement, si vous rejetez l'hypothèse nulle, vous affirmerez que l'hypothèse nulle n'est pas vraie. Donc, si l'hypothèse nulle VRAIMENT vraie, vous avez alors commis une erreur. Cela s'appelle une erreur de type I, dans laquelle votre décision de rejeter Ho est erronée, car Ho est en fait vrai. La probabilité d'erreur de ce type I est \(\alpha\).
Le deuxième type d'erreur se produit lorsque vous ne parvenez pas à rejeter l'hypothèse nulle, de sorte que vous ne trouvez pas suffisamment de preuves pour affirmer que l'hypothèse nulle est fausse. Mais, s'il s'avère que l'hypothèse nulle est VRAIMENT fausse, vous avez alors commis une erreur. C'est ce qu'on appelle une erreur de type II, dans laquelle votre décision de ne pas rejeter Ho est fausse, car Ho est en fait fausse. La probabilité d'erreur de ce type II est nommée \(\beta\).
C'est tout pour le moment.