题目
多模态大模型评测比纯文本更难。请说明难点、主流基准与评测方法。
参考答案
多模态评测难点:
- 任务多样:图像理解、视频理解、图文生成、跨模态推理、OCR、定位、分割——单基准覆盖不全。
- 主观性强:图像描述好坏无标准答案,客观指标(BLEU/ROUGE)与人感差距大。
- 幻觉严重:模型常”看到”图中没有的细节,需专门评测。
- 长视频:视频时序长,评测成本高,标注难。
- 语言-视觉对齐:模型可能”看对图说错话”或”看错图说对话”。
主流基准:
| 基准 | 评测维度 | 形式 |
|---|---|---|
| MMBench | 综合多模态能力 | 选择题(中英) |
| MMMU | 大学多学科图文推理 | 选择题 |
| MMMU-Pro | MMMU 加强版,减少猜对 | 选择题 |
| MMVet | 综合能力 6 维度 | 开放问答 |
| SEED-Bench | 多模态多任务 | 选择题 |
| GQA | 基于图像的场景问答 | 问答 |
| POPE | 幻觉评测(物体是否存在) | 是/否 |
| HallusionBench | 幻觉深度评测 | 问答 |
| MME | 感知 + 认知 14 子任务 | 是/否 |
| Video-MME / MVBench | 视频理解 | 选择题 |
评测方法:
- 客观题:选择题准确率,简单可自动化,但有猜对概率。
- LLM-as-judge:用 GPT-4V 等更强模型当裁判评主观题,但裁判自身有偏。
- 人工评估:最准但成本高,常用于关键模型对比。
- 幻觉专项:POPE 测物体幻觉,HallusionBench 测推理幻觉。
- 对抗评测:故意设计陷阱(如”图里没有的东西问是否存在”)。
工程实践:
- 上线前跑 MMBench/MMVet/POPE 三件套,覆盖能力、综合、幻觉。
- 私有业务评测集最重要(如自家 OCR、商品图理解)。
- 关注”看图与不看图”差异——若模型不看图也能答对,说明基准有漏洞。
面试加分点:
- 指出多模态榜单注水更严重——选择题易被语言先验”猜对”,故 MMMU-Pro 等加强版出现。
- 幻觉是多模态落地的最大障碍,POPE/HallusionBench 是必跑项。
- 视频理解是下一代难点,时序建模 + 长上下文 + 标注成本三重挑战。
出处:MMBench/MMMU 论文、多模态面经。
内容来源
整理自多模态面经与 MMBench/MMMU 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。