▰AI 求职面经库

← 返回题库

前沿专题中等

多模态大模型评测有哪些难点与基准？

#多模态评测#基准#幻觉评测#主观评测

题目

多模态大模型评测比纯文本更难。请说明难点、主流基准与评测方法。

参考答案

多模态评测难点：

任务多样：图像理解、视频理解、图文生成、跨模态推理、OCR、定位、分割——单基准覆盖不全。
主观性强：图像描述好坏无标准答案，客观指标（BLEU/ROUGE）与人感差距大。
幻觉严重：模型常”看到”图中没有的细节，需专门评测。
长视频：视频时序长，评测成本高，标注难。
语言-视觉对齐：模型可能”看对图说错话”或”看错图说对话”。

主流基准：

基准	评测维度	形式
MMBench	综合多模态能力	选择题（中英）
MMMU	大学多学科图文推理	选择题
MMMU-Pro	MMMU 加强版，减少猜对	选择题
MMVet	综合能力 6 维度	开放问答
SEED-Bench	多模态多任务	选择题
GQA	基于图像的场景问答	问答
POPE	幻觉评测（物体是否存在）	是/否
HallusionBench	幻觉深度评测	问答
MME	感知 + 认知 14 子任务	是/否
Video-MME / MVBench	视频理解	选择题

评测方法：

客观题：选择题准确率，简单可自动化，但有猜对概率。
LLM-as-judge：用 GPT-4V 等更强模型当裁判评主观题，但裁判自身有偏。
人工评估：最准但成本高，常用于关键模型对比。
幻觉专项：POPE 测物体幻觉，HallusionBench 测推理幻觉。
对抗评测：故意设计陷阱（如”图里没有的东西问是否存在”）。

工程实践：

上线前跑 MMBench/MMVet/POPE 三件套，覆盖能力、综合、幻觉。
私有业务评测集最重要（如自家 OCR、商品图理解）。
关注”看图与不看图”差异——若模型不看图也能答对，说明基准有漏洞。

面试加分点：

指出多模态榜单注水更严重——选择题易被语言先验”猜对”，故 MMMU-Pro 等加强版出现。
幻觉是多模态落地的最大障碍，POPE/HallusionBench 是必跑项。
视频理解是下一代难点，时序建模 + 长上下文 + 标注成本三重挑战。

出处：MMBench/MMMU 论文、多模态面经。

内容来源

整理自多模态面经与 MMBench/MMMU 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。