- 张芷铭的个人博客

YOLO、SAM、Florence 分别代表高效检测器、通用分割、统一视觉语言模型三种技术路线。

模型概览

实时目标检测的首选，YOLO11-medium 以 20.1M 参数实现 51.5% mAP。

版本	mAP	参数量	推理延迟(T4)
YOLO11-nano	39.5%	2.6M	1.5ms
YOLO11-medium	51.5%	20.1M	-
YOLOv9-E	55.6%	57.3M	-

核心优势：实时性强、部署友好、支持多种推理框架。

零样本分割能力，支持 400 万+概念，开放词汇检测。

核心优势：强大的泛化能力、像素级分割、零样本学习。

统一视觉语言模型，一个模型处理 20+ 视觉任务。

版本	参数量	COCO mAP
base	230M	34.7%
large	770M	37.5% (微调后 43.4%)

核心优势：多任务统一、提示驱动、自然语言交互。

维度	YOLO	SAM 3	Florence-2
类别覆盖	80 类	400 万+ 概念	开放词汇
检测精度	最高 55.6% mAP	零样本 38.5% mAP	微调后 43.4% mAP
输出类型	边界框	掩码	边界框+掩码+文本
小目标检测	优化良好	优秀	良好

首选：YOLO11-medium，性能与效率最佳平衡。

组合策略：YOLO 快速检测 + SAM 精细分割 + Florence 智能理解。