Chatbot Arena是LMSYS推出的匿名随机PK评测平台,基于Elo评分系统对大语言模型进行排名。
核心机制
| 机制 | 说明 |
|---|---|
| 匿名PK | 用户同时对两个匿名模型提问 |
| 随机配对 | 模型身份隐藏,避免偏见 |
| Elo评分 | 基于胜负关系计算评分排名 |
评分特点
- 众包评测,数据来源于真实用户交互
- 动态更新,反映模型最新表现
- 覆盖多维度能力:对话、推理、代码、数学
Chatbot Arena是LMSYS推出的匿名随机PK评测平台,基于Elo评分系统对大语言模型进行排名。
| 机制 | 说明 |
|---|---|
| 匿名PK | 用户同时对两个匿名模型提问 |
| 随机配对 | 模型身份隐藏,避免偏见 |
| Elo评分 | 基于胜负关系计算评分排名 |
Comments