Coefficiente di correlazione: Calcolo dell'intervallo di confidenza


Istruzioni: È possibile utilizzare questo calcolatore passo-passo dell'intervallo di confidenza per il coefficiente di correlazione di due variabili X e Y. Tutto ciò che dovete fare è inserire i dati X e Y nel foglio di calcolo sottostante e specificare il livello di confidenza.

È possibile incollare i dati direttamente da Excel, se è così che si hanno i dati.

Livello di confidenza (es.: 0,95, 95, 99, 99%) =
Nome della variabile X (opzionale)
Nome della variabile Y (opzionale)

Coefficiente di correlazione Intervallo di confidenza

Il coefficiente di correlazione è una statistica (il che implica che viene calcolata da dati campionari) che fornisce una misura numerica per quantificare la forza dell'associazione lineare tra due variabili. I valori di correlazione, per definizione, possono variare da -1 a 1.

Una correlazione prossima a 1 suggerisce l'esistenza di una forte associazione lineare positiva tra le due variabili, mentre una correlazione prossima a -1 suggerisce l'esistenza di una forte associazione lineare negativa tra le due variabili. Più la correlazione è vicina a 1 (o a -1), più forte è l'associazione lineare.

Come si calcola il coefficiente di correlazione

Matematicamente, il il coefficiente di correlazione viene calcolato come segue:

\[r =\frac{n \sum_{i=1}^n x_i y_i - \left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2} \sqrt{n \sum_{i=1}^n y_i^2 - \left( \sum_{i=1}^n y_i \right)^2} }\]

che può essere più comodamente riscritto come:

\[r = \frac{\sum_{i=1}^n x_i y_i - \frac{1}{n}\left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{\sum_{i=1}^n x_i^2 - \frac{1}{n}\left( \sum_{i=1}^n x_i \right)^2} \sqrt{\sum_{i=1}^n y_i^2 - \frac{1}{n}\left( \sum_{i=1}^n y_i \right)^2}} = \frac{SS_{XY}}{\sqrt{SS_{XX}\cdot SS_{YY} }}\]

Si noti che questo è adatto solo per due variabili. Se si dispone di più di due variabili, si può usare il nostro metodo calcolatore della matrice di correlazione che fornirà la matrice di correlazione, che rappresenta la correlazione tra TUTTE le coppie di variabili.

È possibile calcolare un intervallo di confidenza per un coefficiente di correlazione?

Sì! Un coefficiente di correlazione ha un intervallo di confidenza. In effetti, un coefficiente di correlazione campionaria è una stima di una vera correlazione della popolazione e, in quanto tale, è suscettibile di stime ad intervallo. Ora, la procedura per calcolare l'intervallo di confidenza associato a una correlazione campionaria è un po' più contorta, poiché richiede l'uso di alcune trasformazioni.

Come si trovano il coefficiente di correlazione e l'intervallo di confidenza?

Passo 1 : È necessario calcolare la correlazione campionaria \(r\) o farsela fornire.

Passo 2 : Calcolare una trasformazione del coefficiente di correlazione, basata sulla tangente iperbolica inversa, definita come \(r' = \tanh^{-1}(r)\). Questo sarà il centro di un intervallo di confidenza ausiliario che verrà utilizzato.

Passo 3 : Calcolare l'errore standard della correlazione trasformata utilizzando la seguente formula:

\[SE = \frac{1}{\sqrt{n-3}}\]

dove \(n\) rappresenta la dimensione del campione.

Passo 4 : Calcolare il seguente intervallo di confidenza ausiliario:

\[CI' = (\tanh^{-1}(r) - z_c \times SE, \tanh^{-1}(r) + z_c \times SE)\]

dove \(z_c\) rappresenta il valore critico per il livello di confidenza dato. Ad esempio, per un livello di confidenza del 95%, si ha che \(z_c = 1.96\).

Passo 5 : Esponiamo i limiti dell'intervallo di confidenza ausiliario CI', per ottenere l'intervallo di confidenza che ci interessa:

\[CI = (\tanh(r' - z_c \times SE), \tanh(r' + z_c \times SE))\]

che è il modo in cui si calcola l'intervallo di confidenza in R.

Intervallo di confidenza per l'interpretazione del coefficiente di correlazione

L'interpretazione dell'intervallo di confidenza per la correlazione è più o meno la stessa che si ha per altri parametri e statistiche campionarie. Per un intervallo di confidenza con limiti \((r_L, r_U)\), possiamo dire che siamo sicuri (al livello di confidenza dato) che l'intervallo \((r_L, r_U)\) contiene la vera correlazione della popolazione.

Più concretamente, con un esempio. Supponiamo di avere un intervallo di confidenza sulla correlazione del 95% con limiti \((0.34, 0.59)\), quindi possiamo dire che siamo sicuri al 95% che l'intervallo \((0.34, 0.59)\) contenga la vera correlazione della popolazione.

Non hai un account di iscrizione?
Iscriviti

Resetta la password

Torna a
accesso

Iscriviti

Torna a
accesso