相关系数:置信区间计算器
指示: 您可以使用此分步计算置信区间计算器来计算两个变量 X 和 Y 的相关系数。您所要做的就是在下面的电子表格中输入您的 X 和 Y 数据,并指定置信水平。
您可以直接从 Excel 粘贴数据,如果这是您拥有数据的方式。
相关系数置信区间
相关系数是一个统计量(这意味着它是从样本数据中计算出来的),它提供了一个数值度量来量化两个变量之间的线性关联的强度。根据定义,相关值的范围可以在 -1 和 1 之间。
接近 1 的相关性表明两个变量之间存在强正线性关联,接近 -1 的相关性表明两个变量之间存在强负线性关联。相关性越接近 1(或 -1),线性关联越强。
你如何计算相关系数
在数学上, 计算相关系数 如下:
\[r =\frac{n \sum_{i=1}^n x_i y_i - \left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2} \sqrt{n \sum_{i=1}^n y_i^2 - \left( \sum_{i=1}^n y_i \right)^2} }\]可以更方便地重写为:
\[r = \frac{\sum_{i=1}^n x_i y_i - \frac{1}{n}\left(\sum_{i=1}^n x_i \right) \left(\sum_{i=1}^n y_i \right) }{\sqrt{\sum_{i=1}^n x_i^2 - \frac{1}{n}\left( \sum_{i=1}^n x_i \right)^2} \sqrt{\sum_{i=1}^n y_i^2 - \frac{1}{n}\left( \sum_{i=1}^n y_i \right)^2}} = \frac{SS_{XY}}{\sqrt{SS_{XX}\cdot SS_{YY} }}\]请注意,这仅适用于两个变量。每当您有两个以上的变量时,您可以使用我们的 相关矩阵计算器 ,它将为您提供相关矩阵,表示所有变量对之间的相关性。
你能计算相关系数的置信区间吗?
是的!相关系数确实有置信区间。实际上,样本相关系数是对真实总体相关性的估计,因此,它适用于区间估计。现在,计算与样本相关性相关的置信区间的过程有点复杂,因为它需要使用某些转换。
你如何找到相关系数和置信区间?
第1步 :您需要计算样本相关性\(r\),或将其提供给您。
第2步 :计算相关系数的变换,基于反双曲正切,定义为 \(r' = \tanh^{-1}(r)\)。这将是将要使用的辅助置信区间的中心。
第 3 步 :使用以下公式计算转换后相关性的标准误差:
\[SE = \frac{1}{\sqrt{n-3}}\]其中 \(n\) 表示样本大小。
第4步 :计算以下辅助置信区间:
\[CI' = (\tanh^{-1}(r) - z_c \times SE, \tanh^{-1}(r) + z_c \times SE)\]其中 \(z_c\) 表示给定置信水平的临界值。例如,对于 95% 的置信水平,我们有 \(z_c = 1.96\)。
第 5 步 :我们将辅助置信区间 CI' 的极限取幂,以获得我们感兴趣的置信区间:
\[CI = (\tanh(r' - z_c \times SE), \tanh(r' + z_c \times SE))\]这就是您在 R 中计算置信区间的方式。
相关系数解释的置信区间
对相关性置信区间的解释与对其他参数和样本统计量的解释大致相同。对于具有限制 \((r_L, r_U)\) 的置信区间,我们可以说我们有信心(在给定的置信水平下),区间 \((r_L, r_U)\) 包含真实的总体相关性。
更具体地说,举个例子。假设您有一个 95% 的相关置信区间,限制为 \((0.34, 0.59)\),那么我们可以说我们有 95% 的置信区间 \((0.34, 0.59)\) 包含真正的总体相关性。