- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

权威榜单是大模型选型的核心参考。按"通用+场景补充"思路快速完成科学选型。

通用LLM榜单

榜单	特点	适用场景
LMSYS LMArena	全球最大盲测，用户双盲投票	通用对话选型
Hugging Face Open LLM	开源可复现，每周更新	开发、论文对比
SuperCLUE	聚焦中文能力	国产模型选型
LiveBench	实时更新，防数据泄露	长期迭代监控

VLM多模态榜单

榜单	特点	适用场景
SuperCLUE-VLM	中文多模态	VL产品落地
MMBench+MME	学术标杆	模型研发验证
LLaVA Bench	开源可复现	快速验证

专项能力榜单

类型	榜单
工具调用	Berkeley Function-Calling
代码	Aider Polyglot Coding
科研推理	HLE/ARC Prize
安全合规	TruthfulQA、Safety Bench

选型建议

通用场景：LMArena + Hugging Face Open LLM交叉验证
中文场景：叠加SuperCLUE系列
多模态场景：SuperCLUE-VLM、MMBench为主
专项/合规：针对性选用垂直榜单

Comments