← 返回题库
前沿专题中等

多模态大模型评测有哪些难点与基准?

#多模态评测#基准#幻觉评测#主观评测

题目

多模态大模型评测比纯文本更难。请说明难点、主流基准与评测方法。

参考答案

多模态评测难点

  1. 任务多样:图像理解、视频理解、图文生成、跨模态推理、OCR、定位、分割——单基准覆盖不全。
  2. 主观性强:图像描述好坏无标准答案,客观指标(BLEU/ROUGE)与人感差距大。
  3. 幻觉严重:模型常”看到”图中没有的细节,需专门评测。
  4. 长视频:视频时序长,评测成本高,标注难。
  5. 语言-视觉对齐:模型可能”看对图说错话”或”看错图说对话”。

主流基准

基准评测维度形式
MMBench综合多模态能力选择题(中英)
MMMU大学多学科图文推理选择题
MMMU-ProMMMU 加强版,减少猜对选择题
MMVet综合能力 6 维度开放问答
SEED-Bench多模态多任务选择题
GQA基于图像的场景问答问答
POPE幻觉评测(物体是否存在)是/否
HallusionBench幻觉深度评测问答
MME感知 + 认知 14 子任务是/否
Video-MME / MVBench视频理解选择题

评测方法

  1. 客观题:选择题准确率,简单可自动化,但有猜对概率。
  2. LLM-as-judge:用 GPT-4V 等更强模型当裁判评主观题,但裁判自身有偏。
  3. 人工评估:最准但成本高,常用于关键模型对比。
  4. 幻觉专项:POPE 测物体幻觉,HallusionBench 测推理幻觉。
  5. 对抗评测:故意设计陷阱(如”图里没有的东西问是否存在”)。

工程实践

  • 上线前跑 MMBench/MMVet/POPE 三件套,覆盖能力、综合、幻觉。
  • 私有业务评测集最重要(如自家 OCR、商品图理解)。
  • 关注”看图与不看图”差异——若模型不看图也能答对,说明基准有漏洞。

面试加分点

  • 指出多模态榜单注水更严重——选择题易被语言先验”猜对”,故 MMMU-Pro 等加强版出现。
  • 幻觉是多模态落地的最大障碍,POPE/HallusionBench 是必跑项。
  • 视频理解是下一代难点,时序建模 + 长上下文 + 标注成本三重挑战。

出处:MMBench/MMMU 论文、多模态面经。

内容来源

整理自多模态面经与 MMBench/MMMU 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。