降维解决维度灾难和过拟合问题,分为特征选择、线性降维(PCA)和非线性降维(流形学习)。

维度灾难

维球体积与超立方体比值:

高维数据主要分布在边缘,样本稀疏。

主成分分析 (PCA)

目标

  1. 数据在子空间中更分散
  2. 损失信息最小

损失函数

最大化方差:

解为协方差矩阵 的特征向量,取前 个最大特征值对应的方向。

SVD 方法

对中心化数据 进行奇异值分解:

协方差矩阵:

新坐标:

PCoA

定义 并特征分解:

坐标:

样本量较少时可采用 PCoA 方法。

概率 PCA (p-PCA)

模型假设:

学习用 EM 算法,推断: