张芷铭的个人博客

MMBench 是高质量、多样化的多模态评测基准,采用 CircularEval + LLM 答案提取,支持双语。

官网 | GitHub

特点

特点说明
高质量多样性3217 个数据样本,20 种 L-3 能力
CircularEval循环评估消除选项位置偏见
LLM 答案提取用 LLM 从模型输出提取答案
双语MMBench-CN(GPT-4 翻译 + 人工审核)

数据集构建

收集

  • 80% 问题来自互联网
  • 20% 样本来自公共数据集验证集

质量控制

剔除标准:

  1. 答案可只依据文本推理
  2. 多个 LLM 超过一半得正确答案 → 人工审核
  3. 存在错误(图片/问题/答案)
  4. 多个 VLM 没一个得正确答案 → 人工审核

任务分级

一级二级三级
感知粗粒度感知-
细粒度感知单例、多例
推理属性推理-
逻辑推理-
关系推理-

评估方法

CircularEval

通过轮换选项位置,消除模型对特定位置的偏好。

LLM 答案提取

用 LLM 从 VLM 输出中提取标准答案,提升评估准确性。

结论

闭源模型长处

  • 结构化文本理解
  • 需要外部知识的任务

现有 VLM 通病

  • 理解低级图像特征
  • 结构化图表
  • 空间关系

Comments