← 返回职业图谱
算法研究族高阶35–70K · AIGC 场景需求暴涨

多模态算法工程师

负责文/图/视频跨模态理解与生成,AIGC 与视频生成场景的核心研发者。

01 — 岗位职责

  • 多模态大模型研发(CLIP / BLIP / LLaVA 类架构)
  • Diffusion / Flow Matching 视频与图像生成
  • 可控生成与图像编辑能力建设
  • 跨模态对齐训练与数据构造
  • 多模态评测体系搭建

02 — 能力要求

熟练 PyTorch 与 Diffusion 体系VAE、Flow Matching 原理视觉编码器(ViT / SigLIP / EVA-CLIP)视频时序建模分布式训练

03 — 面试考点

CLIP 对齐原理与对比学习
Diffusion 采样加速(DDIM / DPM-Solver)
可控生成(ControlNet / T2I-Adapter)
多模态评测指标
视频生成的时序一致性

04 — 岗位速写

多模态算法工程师适配 AIGC、视频生成等热门场景,需求持续暴涨。其核心在于打通”看”与”生成”——既要做跨模态对齐(CLIP 类),也要做高质量生成(Diffusion / Flow Matching)。

视频生成是当前最前沿的战场之一,时序一致性、运动可控性、长视频生成都是面试高频考点。