YOLO、SAM、Florence 分别代表高效检测器、通用分割、统一视觉语言模型三种技术路线。
模型概览
YOLO 系列
实时目标检测的首选,YOLO11-medium 以 20.1M 参数实现 51.5% mAP。
| 版本 | mAP | 参数量 | 推理延迟(T4) |
|---|---|---|---|
| YOLO11-nano | 39.5% | 2.6M | 1.5ms |
| YOLO11-medium | 51.5% | 20.1M | - |
| YOLOv9-E | 55.6% | 57.3M | - |
核心优势:实时性强、部署友好、支持多种推理框架。
SAM 3
零样本分割能力,支持 400 万+概念,开放词汇检测。
| 特性 | 说明 |
|---|---|
| 零样本 COCO mAP | 38.5% |
| 概念覆盖 | 400 万+ |
| 参数量 | 848M |
| 推理延迟(H200) | 30ms |
核心优势:强大的泛化能力、像素级分割、零样本学习。
Florence-2
统一视觉语言模型,一个模型处理 20+ 视觉任务。
| 版本 | 参数量 | COCO mAP |
|---|---|---|
| base | 230M | 34.7% |
| large | 770M | 37.5% (微调后 43.4%) |
核心优势:多任务统一、提示驱动、自然语言交互。
检测能力对比
| 维度 | YOLO | SAM 3 | Florence-2 |
|---|---|---|---|
| 类别覆盖 | 80 类 | 400 万+ 概念 | 开放词汇 |
| 检测精度 | 最高 55.6% mAP | 零样本 38.5% mAP | 微调后 43.4% mAP |
| 输出类型 | 边界框 | 掩码 | 边界框+掩码+文本 |
| 小目标检测 | 优化良好 | 优秀 | 良好 |
选型建议
| 需求 | 推荐模型 |
|---|---|
| 实时检测、边缘部署 | YOLO11 系列 |
| 零样本、长尾类别 | SAM 3 |
| 高精度分割、医学影像 | SAM 3 |
| 多任务集成、自然语言交互 | Florence-2 |
| 工业/安防/交通监控 | YOLO |
综合建议
首选:YOLO11-medium,性能与效率最佳平衡。
组合策略:YOLO 快速检测 + SAM 精细分割 + Florence 智能理解。
张芷铭的个人博客
Comments