张芷铭的个人博客

YOLO、SAM、Florence 分别代表高效检测器、通用分割、统一视觉语言模型三种技术路线。

模型概览

YOLO 系列

实时目标检测的首选,YOLO11-medium 以 20.1M 参数实现 51.5% mAP。

版本mAP参数量推理延迟(T4)
YOLO11-nano39.5%2.6M1.5ms
YOLO11-medium51.5%20.1M-
YOLOv9-E55.6%57.3M-

核心优势:实时性强、部署友好、支持多种推理框架。

SAM 3

零样本分割能力,支持 400 万+概念,开放词汇检测。

特性说明
零样本 COCO mAP38.5%
概念覆盖400 万+
参数量848M
推理延迟(H200)30ms

核心优势:强大的泛化能力、像素级分割、零样本学习。

Florence-2

统一视觉语言模型,一个模型处理 20+ 视觉任务。

版本参数量COCO mAP
base230M34.7%
large770M37.5% (微调后 43.4%)

核心优势:多任务统一、提示驱动、自然语言交互。

检测能力对比

维度YOLOSAM 3Florence-2
类别覆盖80 类400 万+ 概念开放词汇
检测精度最高 55.6% mAP零样本 38.5% mAP微调后 43.4% mAP
输出类型边界框掩码边界框+掩码+文本
小目标检测优化良好优秀良好

选型建议

需求推荐模型
实时检测、边缘部署YOLO11 系列
零样本、长尾类别SAM 3
高精度分割、医学影像SAM 3
多任务集成、自然语言交互Florence-2
工业/安防/交通监控YOLO

综合建议

首选:YOLO11-medium,性能与效率最佳平衡。

组合策略:YOLO 快速检测 + SAM 精细分割 + Florence 智能理解。

Comments