张芷铭的个人博客

聚类是无监督学习的核心任务,将样本划分为组,使组内相似、组间相异。

算法谱系

类别代表算法
原型划分K-means、GMM
层次类凝聚/分裂聚类
密度类DBSCAN、HDBSCAN
图/谱类谱聚类、Louvain
深度聚类DEC、DeepCluster

核心要素

  • 表示与度量:特征、嵌入、距离度量
  • 归纳偏置:几何形状、密度假设
  • 模型复杂度:簇数 K、密度阈值

算法选型

场景推荐算法
球状簇、速度快K-means
椭球簇、软分配GMM
任意形状、含噪声DBSCAN/HDBSCAN
非凸多流形谱聚类
高维嵌入球面 K-means

评估指标

类型指标
内部指标轮廓系数、Davies-Bouldin
外部指标ARI、NMI

工程经验

  • 标准化/归一化预处理
  • 高维数据先降维
  • K-means 用 K-means++ 初始化
  • 嵌入质量至关重要

Comments