降维解决维度灾难和过拟合问题,分为特征选择、线性降维(PCA)和非线性降维(流形学习)。
维度灾难
维球体积与超立方体比值:
高维数据主要分布在边缘,样本稀疏。
主成分分析 (PCA)
目标
- 数据在子空间中更分散
- 损失信息最小
损失函数
最大化方差:
解为协方差矩阵 的特征向量,取前 个最大特征值对应的方向。
SVD 方法
对中心化数据 进行奇异值分解:
协方差矩阵:
新坐标:
PCoA
定义 并特征分解:
坐标:
样本量较少时可采用 PCoA 方法。
概率 PCA (p-PCA)
模型假设:
学习用 EM 算法,推断: