聚类是无监督学习的核心任务,将样本划分为组,使组内相似、组间相异。
算法谱系
| 类别 | 代表算法 |
|---|---|
| 原型划分 | K-means、GMM |
| 层次类 | 凝聚/分裂聚类 |
| 密度类 | DBSCAN、HDBSCAN |
| 图/谱类 | 谱聚类、Louvain |
| 深度聚类 | DEC、DeepCluster |
核心要素
- 表示与度量:特征、嵌入、距离度量
- 归纳偏置:几何形状、密度假设
- 模型复杂度:簇数 K、密度阈值
算法选型
| 场景 | 推荐算法 |
|---|---|
| 球状簇、速度快 | K-means |
| 椭球簇、软分配 | GMM |
| 任意形状、含噪声 | DBSCAN/HDBSCAN |
| 非凸多流形 | 谱聚类 |
| 高维嵌入 | 球面 K-means |
评估指标
| 类型 | 指标 |
|---|---|
| 内部指标 | 轮廓系数、Davies-Bouldin |
| 外部指标 | ARI、NMI |
工程经验
- 标准化/归一化预处理
- 高维数据先降维
- K-means 用 K-means++ 初始化
- 嵌入质量至关重要
张芷铭的个人博客
Comments