▰AI 求职面经库

← 返回题库

前沿专题中等

多模态对齐：CLIP 与 BLIP 原理？为何能跨模态检索？

#CLIP#对比学习#跨模态对齐#BLIP

题目

CLIP 开创了视觉-语言对齐范式。请说明其原理，以及它为何能让”用文本搜图”成为可能。BLIP 系列又做了哪些改进？

参考答案

CLIP（Contrastive Language-Image Pre-training，OpenAI 2021）：

核心思想：用对比学习把图像与文本拉到同一向量空间。

双编码器：图像编码器（ViT）+ 文本编码器（Transformer）。
训练目标：对 $N$ 对（图，文），让正对的向量相似度高，负对（batch 内交叉）相似度低。

\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(I_i,T_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(I_i,T_j)/\tau)}\right]

用 4 亿对图文对训练，学到通用的跨模态表示。

为何能跨模态检索：

训练后，图像与文本在同一向量空间。
文本搜图：把 query 编码成文本向量，在图像向量库中找最近邻。
零样本分类：把类别转成文本（“a photo of a cat”），与图像向量比相似度，取最高者。

BLIP 系列的改进：

BLIP（Salesforce 2022）：

引入 CapFilt：用图像描述生成器（captioner）与过滤器（filter）清洗噪声图文对，提升数据质量。
支持理解（检索）+ 生成（描述）双任务。

BLIP-2：

关键创新：Q-Former 桥接冻结的视觉编码器与冻结的 LLM。
只训 Q-Former（轻量），复用预训练 LLM，大幅降低训练成本。
把视觉信息压缩成少量 token 喂给 LLM，支持多模态对话/推理。

后续演进：

LLaVA：直接把 ViT 输出投影到 LLM 词嵌入空间，简单有效，成为开源多模态主流。
Qwen-VL / GLM-4V：在 LLaVA 思路上加高分辨率、OCR、定位等能力。

对比表：

模型	对齐方式	支持生成	训练成本
CLIP	对比学习	否	高（全训）
BLIP	对比+生成	是	高
BLIP-2	Q-Former 桥接	是	低（冻主干）
LLaVA	线性投影	是	极低

面试加分点：

指出 CLIP 的对比学习本质是 InfoNCE 损失，batch size 越大负样本越多效果越好（CLIP 用 32k batch）。
BLIP-2 的”冻结主干 + 训桥接层”思路是大模型时代的高效范式，把 LLM 当通用推理引擎。
多模态对齐的瓶颈已从”对齐方法”转向”高质量多模态数据”。

出处：CLIP 论文《Learning Transferable Visual Models From Natural Language Supervision》、BLIP/BLIP-2 论文、多模态面经。

内容来源

整理自多模态大模型面经与 CLIP/BLIP 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。