张芷铭的个人博客

📅 0001-01-01

聚类是无监督学习的核心任务，将样本划分为组，使组内相似、组间相异。

算法谱系

类别	代表算法
原型划分	K-means、GMM
层次类	凝聚/分裂聚类
密度类	DBSCAN、HDBSCAN
图/谱类	谱聚类、Louvain
深度聚类	DEC、DeepCluster

核心要素

表示与度量：特征、嵌入、距离度量
归纳偏置：几何形状、密度假设
模型复杂度：簇数 K、密度阈值

算法选型

场景	推荐算法
球状簇、速度快	K-means
椭球簇、软分配	GMM
任意形状、含噪声	DBSCAN/HDBSCAN
非凸多流形	谱聚类
高维嵌入	球面 K-means

评估指标

类型	指标
内部指标	轮廓系数、Davies-Bouldin
外部指标	ARI、NMI

工程经验

标准化/归一化预处理
高维数据先降维
K-means 用 K-means++ 初始化
嵌入质量至关重要

Comments