PCA 是一种经典的无监督降维方法,它通过线性变换将数据投影到一个新的坐标系统中,使得数据的方差最大化。其核心思想是找到数据中最重要的特征(主成分),并使用这些主成分来表示数据。
工作原理:
- 数据中心化:首先,将数据进行均值中心化,即去掉每个特征的均值。
- 协方差矩阵:计算数据的协方差矩阵,描述特征之间的相关性。
- 特征分解:对协方差矩阵进行特征值分解,找到特征向量(主成分)和特征值(方差)。
- 选择主成分:选择具有最大特征值的特征向量作为新的特征空间,并根据需要选择前 k 个主成分(维数减少)。
- 投影数据:将原始数据投影到选定的主成分上,得到降维后的数据。
应用:
- 图像压缩
- 特征选择
- 数据可视化
- 去噪处理
💬 评论