独立同分布(i.i.d.)描述随机变量序列的两个特性:任意变量取值互不影响(独立性),且服从相同分布(同分布性)。
数学定义
对于随机变量序列 :
核心定理
| 定理 | 公式 | 含义 |
|---|---|---|
| 大数定律 | 样本均值收敛于期望 | |
| 中心极限定理 | 标准化和趋于正态 | |
| 格列汶科定理 | $\sup_x | F_n(x) - F(x) |
应用场景
| 领域 | 应用 |
|---|---|
| 机器学习 | 训练数据假设、交叉验证、参数初始化 |
| 统计推断 | 参数估计、假设检验、回归分析 |
| 金融工程 | 收益率建模、VaR计算、蒙特卡洛模拟 |
检验方法
独立性检验:自相关函数、卡方检验、互信息法
同分布检验:KS检验、Anderson-Darling检验
from scipy import stats
import numpy as np
# KS检验两样本是否同分布
x = np.random.normal(0, 1, 100)
y = np.random.normal(0.1, 1, 100)
print(stats.ks_2samp(x, y))常见误区
| 问题 | 说明 |
|---|---|
| 时间序列误用 | 金融数据常具自相关性 |
| 聚类数据忽视 | 组内相关会低估方差 |
| 分布误判 | 假设正态但实际厚尾 |
前沿方向
- 域适应:处理训练/测试分布差异
- 联邦学习:非i.i.d.数据分布问题
- 元学习:从非i.i.d.任务中学习