独立同分布(i.i.d.)描述随机变量序列的两个特性:任意变量取值互不影响(独立性),且服从相同分布(同分布性)。

数学定义

对于随机变量序列

核心定理

定理公式含义
大数定律样本均值收敛于期望
中心极限定理标准化和趋于正态
格列汶科定理$\sup_xF_n(x) - F(x)

应用场景

领域应用
机器学习训练数据假设、交叉验证、参数初始化
统计推断参数估计、假设检验、回归分析
金融工程收益率建模、VaR计算、蒙特卡洛模拟

检验方法

独立性检验:自相关函数、卡方检验、互信息法

同分布检验:KS检验、Anderson-Darling检验

from scipy import stats
import numpy as np
 
# KS检验两样本是否同分布
x = np.random.normal(0, 1, 100)
y = np.random.normal(0.1, 1, 100)
print(stats.ks_2samp(x, y))

常见误区

问题说明
时间序列误用金融数据常具自相关性
聚类数据忽视组内相关会低估方差
分布误判假设正态但实际厚尾

前沿方向

  • 域适应:处理训练/测试分布差异
  • 联邦学习:非i.i.d.数据分布问题
  • 元学习:从非i.i.d.任务中学习