权威榜单是大模型选型的核心参考。按"通用+场景补充"思路快速完成科学选型。
通用LLM榜单
| 榜单 | 特点 | 适用场景 |
|---|---|---|
| LMSYS LMArena | 全球最大盲测,用户双盲投票 | 通用对话选型 |
| Hugging Face Open LLM | 开源可复现,每周更新 | 开发、论文对比 |
| SuperCLUE | 聚焦中文能力 | 国产模型选型 |
| LiveBench | 实时更新,防数据泄露 | 长期迭代监控 |
VLM多模态榜单
| 榜单 | 特点 | 适用场景 |
|---|---|---|
| SuperCLUE-VLM | 中文多模态 | VL产品落地 |
| MMBench+MME | 学术标杆 | 模型研发验证 |
| LLaVA Bench | 开源可复现 | 快速验证 |
专项能力榜单
| 类型 | 榜单 |
|---|---|
| 工具调用 | Berkeley Function-Calling |
| 代码 | Aider Polyglot Coding |
| 科研推理 | HLE/ARC Prize |
| 安全合规 | TruthfulQA、Safety Bench |
选型建议
- 通用场景:LMArena + Hugging Face Open LLM交叉验证
- 中文场景:叠加SuperCLUE系列
- 多模态场景:SuperCLUE-VLM、MMBench为主
- 专项/合规:针对性选用垂直榜单
张芷铭的个人博客
Comments