皮尔逊相关系数是衡量两个变量线性关系强度的重要指标,值域为[-1, 1],其中1表示完全正相关,-1表示完全负相关,0表示无相关性。它广泛应用于数据分析与机器学习中,比如评估预测模型的准确性。
计算公式如下:
r = Σ[(xᵢ - x̄)(yᵢ - ȳ)] / √[Σ(xᵢ - x̄)² Σ(yᵢ - ȳ)²]
在Python中实现这一公式非常方便,以下是示例代码:
```python
import numpy as np
def pearson_corr(x, y):
mean_x = np.mean(x)
mean_y = np.mean(y)
numerator = np.sum((x - mean_x) (y - mean_y))
denominator = np.sqrt(np.sum((x - mean_x)2) np.sum((y - mean_y)2))
return numerator / denominator
示例数据
x = [1, 2, 3, 4, 5]
y = [5, 4, 3, 2, 1]
print("皮尔逊相关系数:", pearson_corr(x, y)) 输出结果为 -1.0
```
通过这段代码,我们可以轻松计算任意两组数据的相关性,帮助我们快速洞察变量间的潜在关系。💪✨