MMBench 是高质量、多样化的多模态评测基准,采用 CircularEval + LLM 答案提取,支持双语。
特点
| 特点 | 说明 |
|---|---|
| 高质量多样性 | 3217 个数据样本,20 种 L-3 能力 |
| CircularEval | 循环评估消除选项位置偏见 |
| LLM 答案提取 | 用 LLM 从模型输出提取答案 |
| 双语 | MMBench-CN(GPT-4 翻译 + 人工审核) |
数据集构建
收集
- 80% 问题来自互联网
- 20% 样本来自公共数据集验证集
质量控制
剔除标准:
- 答案可只依据文本推理
- 多个 LLM 超过一半得正确答案 → 人工审核
- 存在错误(图片/问题/答案)
- 多个 VLM 没一个得正确答案 → 人工审核
任务分级
| 一级 | 二级 | 三级 |
|---|---|---|
| 感知 | 粗粒度感知 | - |
| 细粒度感知 | 单例、多例 | |
| 推理 | 属性推理 | - |
| 逻辑推理 | - | |
| 关系推理 | - |
评估方法
CircularEval
通过轮换选项位置,消除模型对特定位置的偏好。
LLM 答案提取
用 LLM 从 VLM 输出中提取标准答案,提升评估准确性。
结论
闭源模型长处
- 结构化文本理解
- 需要外部知识的任务
现有 VLM 通病
- 理解低级图像特征
- 结构化图表
- 空间关系
张芷铭的个人博客
Comments