- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

MMBench 是高质量、多样化的多模态评测基准，采用 CircularEval + LLM 答案提取，支持双语。

官网 | GitHub

特点

特点	说明
高质量多样性	3217 个数据样本，20 种 L-3 能力
CircularEval	循环评估消除选项位置偏见
LLM 答案提取	用 LLM 从模型输出提取答案
双语	MMBench-CN（GPT-4 翻译 + 人工审核）

数据集构建

收集

80% 问题来自互联网
20% 样本来自公共数据集验证集

质量控制

剔除标准：

答案可只依据文本推理
多个 LLM 超过一半得正确答案 → 人工审核
存在错误（图片/问题/答案）
多个 VLM 没一个得正确答案 → 人工审核

任务分级

一级	二级	三级
感知	粗粒度感知	-
	细粒度感知	单例、多例
推理	属性推理	-
	逻辑推理	-
	关系推理	-

评估方法

CircularEval

通过轮换选项位置，消除模型对特定位置的偏好。

LLM 答案提取

用 LLM 从 VLM 输出中提取标准答案，提升评估准确性。

结论

闭源模型长处

结构化文本理解
需要外部知识的任务

现有 VLM 通病

理解低级图像特征
结构化图表
空间关系

Comments