【相关系数公式】在统计学中,相关系数是用来衡量两个变量之间线性关系强度和方向的一个数值指标。它可以帮助我们判断两个变量是否具有正相关、负相关或无相关性。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。
以下是几种常用的相关系数及其公式总结:
一、皮尔逊相关系数(Pearson Correlation Coefficient)
定义:衡量两个连续变量之间的线性相关程度。
公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $ 是样本数据对
- $ \bar{x}, \bar{y} $ 是 $ x $ 和 $ y $ 的均值
取值范围:-1 到 1
- r = 1 表示完全正相关
- r = -1 表示完全负相关
- r = 0 表示无线性相关
二、斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
定义:用于衡量两个变量的等级之间的相关性,适用于非正态分布或有序数据。
公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i $ 是两个变量对应的等级差
- $ n $ 是样本数量
取值范围:-1 到 1
- 与皮尔逊类似,但基于排序而非原始数据
三、肯德尔等级相关系数(Kendall Rank Correlation Coefficient)
定义:适用于小样本或有序数据,衡量两个变量的等级一致性。
公式:
$$
\tau = \frac{C - D}{\frac{1}{2}n(n - 1)}
$$
其中:
- $ C $ 是一致对数(即两个变量顺序一致的对数)
- $ D $ 是不一致对数(即两个变量顺序不一致的对数)
取值范围:-1 到 1
- τ = 1 表示完全一致
- τ = -1 表示完全不一致
四、相关系数对比表
相关系数类型 | 适用数据类型 | 公式 | 取值范围 | 特点 |
皮尔逊相关系数 | 连续变量 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} $ | -1 ~ 1 | 测量线性关系 |
斯皮尔曼相关系数 | 有序变量/非正态分布 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | -1 ~ 1 | 基于等级数据 |
肯德尔相关系数 | 小样本/有序变量 | $ \tau = \frac{C - D}{\frac{1}{2}n(n - 1)} $ | -1 ~ 1 | 更适合小样本 |
五、总结
相关系数是分析变量间关系的重要工具,不同类型的系数适用于不同的数据类型和研究目的。选择合适的相关系数可以更准确地描述数据之间的关联性。理解这些公式的含义和使用场景,有助于我们在实际数据分析中做出更合理的判断。