Solveurs Statistiques

Coefficient de corrélation : calculateur d'intervalle de confiance

Instructions: Vous pouvez utiliser ce calculateur étape par étape de l'intervalle de confiance pour le coefficient de corrélation pour deux variables X et Y. Tout ce que vous avez à faire est de saisir vos données X et Y dans la feuille de calcul ci-dessous et de spécifier le niveau de confiance.

Vous pouvez coller des données directement à partir d'Excel, si c'est ainsi que vous avez vos données.

Coefficient de corrélation Intervalle de confiance

Le coefficient de corrélation est une statistique (ce qui implique qu'il est calculé à partir de données d'échantillon) qui fournit une mesure numérique pour quantifier la force de l'association linéaire entre deux variables. Les valeurs de corrélation, par définition, peuvent être comprises entre -1 et 1.

Une corrélation proche de 1 suggère l'existence d'une forte association linéaire positive entre les deux variables, et une corrélation proche de -1 suggère l'existence d'une forte association linéaire négative entre les deux variables. Plus la corrélation est proche de 1 (ou -1), plus l'association linéaire est forte.

Comment calculer le coefficient de corrélation

Mathématiquement, le le coefficient de corrélation est calculé comme suit:

\[r =\frac{n \sum_{i=1}^n x_i y_i - \left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2} \sqrt{n \sum_{i=1}^n y_i^2 - \left( \sum_{i=1}^n y_i \right)^2} }\]

qui peut être plus facilement réécrit comme suit :

\[r = \frac{\sum_{i=1}^n x_i y_i - \frac{1}{n}\left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{\sum_{i=1}^n x_i^2 - \frac{1}{n}\left( \sum_{i=1}^n x_i \right)^2} \sqrt{\sum_{i=1}^n y_i^2 - \frac{1}{n}\left( \sum_{i=1}^n y_i \right)^2}} = \frac{SS_{XY}}{\sqrt{SS_{XX}\cdot SS_{YY} }}\]

Notez que cela ne convient qu'à deux variables. Chaque fois que vous avez plus de deux variables, vous pouvez utiliser notre calculateur de matrice de corrélation , qui vous fournira la matrice de corrélation, représentant la corrélation entre TOUTES les paires de variables.

Pouvez-vous calculer un intervalle de confiance pour un coefficient de corrélation ?

Oui! Un coefficient de corrélation a un intervalle de confiance. En effet, un coefficient de corrélation d'échantillon est une estimation d'une véritable corrélation de population et, en tant que tel, il se prête à des estimations d'intervalle. Maintenant, la procédure de calcul de l'intervalle de confiance associé à une corrélation d'échantillon est un peu plus compliquée, car elle nécessite l'utilisation de certaines transformations.

Comment trouver le coefficient de corrélation et l'intervalle de confiance ?

Étape 1 : Vous devez calculer la corrélation d'échantillon \(r\), ou vous la faire fournir.

Étape 2 : Calcule une transformation du coefficient de corrélation, basée sur la tangente hyperbolique inverse, définie comme \(r' = \tanh^{-1}(r)\). Ce sera le centre d'un intervalle de confiance auxiliaire qui sera utilisé.

Étape 3 : Calculez l'erreur type de la corrélation transformée à l'aide de la formule suivante :

\[SE = \frac{1}{\sqrt{n-3}}\]

où \(n\) représente la taille de l'échantillon.

Étape 4 : Calculez l'intervalle de confiance auxiliaire suivant :

\[CI' = (\tanh^{-1}(r) - z_c \times SE, \tanh^{-1}(r) + z_c \times SE)\]

où \(z_c\) représente la valeur critique pour le niveau de confiance donné. Par exemple, pour un niveau de confiance de 95 %, nous avons ce \(z_c = 1.96\).

Étape 5 : On exponentie les bornes de l'intervalle de confiance auxiliaire CI', pour obtenir l'intervalle de confiance qui nous intéresse :

\[CI = (\tanh(r' - z_c \times SE), \tanh(r' + z_c \times SE))\]

c'est ainsi que vous calculez l'intervalle de confiance dans R.

Intervalle de confiance pour l'interprétation du coefficient de corrélation

L'interprétation de l'intervalle de confiance pour la corrélation est à peu près la même que pour les autres paramètres et statistiques d'échantillon. Pour un intervalle de confiance avec des bornes \((r_L, r_U)\), nous pouvons dire que nous sommes sûrs (au niveau de confiance donné) que l'intervalle \((r_L, r_U)\) contient la vraie corrélation de population.

Plus concrètement, avec un exemple. Supposons que vous ayez un intervalle de confiance de corrélation à 95 % avec des limites \((0.34, 0.59)\), nous pouvons donc dire que nous sommes sûrs à 95 % que l'intervalle \((0.34, 0.59)\) contient la véritable corrélation de population.