张芷铭的个人博客

权威榜单是大模型选型的核心参考。按"通用+场景补充"思路快速完成科学选型。

通用LLM榜单

榜单特点适用场景
LMSYS LMArena全球最大盲测,用户双盲投票通用对话选型
Hugging Face Open LLM开源可复现,每周更新开发、论文对比
SuperCLUE聚焦中文能力国产模型选型
LiveBench实时更新,防数据泄露长期迭代监控

VLM多模态榜单

榜单特点适用场景
SuperCLUE-VLM中文多模态VL产品落地
MMBench+MME学术标杆模型研发验证
LLaVA Bench开源可复现快速验证

专项能力榜单

类型榜单
工具调用Berkeley Function-Calling
代码Aider Polyglot Coding
科研推理HLE/ARC Prize
安全合规TruthfulQA、Safety Bench

选型建议

  1. 通用场景:LMArena + Hugging Face Open LLM交叉验证
  2. 中文场景:叠加SuperCLUE系列
  3. 多模态场景:SuperCLUE-VLM、MMBench为主
  4. 专项/合规:针对性选用垂直榜单

Comments