← 返回题库
前沿专题中等

多模态对齐:CLIP 与 BLIP 原理?为何能跨模态检索?

#CLIP#对比学习#跨模态对齐#BLIP

题目

CLIP 开创了视觉-语言对齐范式。请说明其原理,以及它为何能让”用文本搜图”成为可能。BLIP 系列又做了哪些改进?

参考答案

CLIP(Contrastive Language-Image Pre-training,OpenAI 2021)

核心思想:用对比学习把图像与文本拉到同一向量空间。

  • 双编码器:图像编码器(ViT)+ 文本编码器(Transformer)。
  • 训练目标:对 NN 对(图,文),让正对的向量相似度高,负对(batch 内交叉)相似度低。
L=1Ni=1N[logexp(sim(Ii,Ti)/τ)j=1Nexp(sim(Ii,Tj)/τ)]\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(I_i,T_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(I_i,T_j)/\tau)}\right]
  • 用 4 亿对图文对训练,学到通用的跨模态表示。

为何能跨模态检索

  • 训练后,图像与文本在同一向量空间。
  • 文本搜图:把 query 编码成文本向量,在图像向量库中找最近邻。
  • 零样本分类:把类别转成文本(“a photo of a cat”),与图像向量比相似度,取最高者。

BLIP 系列的改进

BLIP(Salesforce 2022)

  • 引入 CapFilt:用图像描述生成器(captioner)与过滤器(filter)清洗噪声图文对,提升数据质量。
  • 支持理解(检索)+ 生成(描述)双任务。

BLIP-2

  • 关键创新:Q-Former 桥接冻结的视觉编码器与冻结的 LLM。
  • 只训 Q-Former(轻量),复用预训练 LLM,大幅降低训练成本。
  • 把视觉信息压缩成少量 token 喂给 LLM,支持多模态对话/推理。

后续演进

  • LLaVA:直接把 ViT 输出投影到 LLM 词嵌入空间,简单有效,成为开源多模态主流。
  • Qwen-VL / GLM-4V:在 LLaVA 思路上加高分辨率、OCR、定位等能力。

对比表

模型对齐方式支持生成训练成本
CLIP对比学习高(全训)
BLIP对比+生成
BLIP-2Q-Former 桥接低(冻主干)
LLaVA线性投影极低

面试加分点

  • 指出 CLIP 的对比学习本质是 InfoNCE 损失,batch size 越大负样本越多效果越好(CLIP 用 32k batch)。
  • BLIP-2 的”冻结主干 + 训桥接层”思路是大模型时代的高效范式,把 LLM 当通用推理引擎。
  • 多模态对齐的瓶颈已从”对齐方法”转向”高质量多模态数据”。

出处:CLIP 论文《Learning Transferable Visual Models From Natural Language Supervision》、BLIP/BLIP-2 论文、多模态面经。

内容来源

整理自多模态大模型面经与 CLIP/BLIP 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。