张芷铭的个人博客

相关性

定义

Pearson相关系数(Pearson Correlation Coefficient),又称皮尔逊积矩相关系数,是衡量两个连续变量$X$和$Y$之间线性关系强度和方向的统计量,取值范围为$[-1, 1]$。其定义为: $$ r = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}} $$ 其中:

  • $\text{cov}(X, Y)$为协方差
  • $\sigma_X, \sigma_Y$为标准差
  • $\bar{X}, \bar{Y}$为均值

发展历史

由英国统计学家卡尔·皮尔逊(Karl Pearson)在1895年提出,基于弗朗西斯·高尔顿(Francis Galton)的回归分析理论发展而来。Pearson相关系数成为现代统计学中相关性分析的基础工具之一。

数学原理

协方差与标准化

Pearson系数的核心思想是通过协方差衡量变量变化方向的一致性,再通过标准差标准化消除量纲影响。其数学性质包括:

  1. *对称性

Comments