面试题库 · AI 求职面经库

▰AI 求职面经库

INTERVIEW

AI 面试题库

七大模块、覆盖基础到前沿。点击模块或难度标签实时筛选，所有题目均标注真实出处。

模块

难度

基础理论中等

主流开源大模型体系有哪些？prefix LM 与 causal LM 的区别？

#开源模型生态#架构范式#注意力掩码

基础理论中等

Transformer 的注意力机制原理？Self-Attention 如何计算？

#Self-Attention#Q/K/V 计算#多头注意力

基础理论中等

什么是大模型的涌现能力？成因是什么？

#涌现能力#规模定律#评估指标

训练与微调困难

全参数微调需要多少显存？如何估算？

#显存估算#优化器状态#混合精度

训练与微调中等

LoRA 的原理是什么？为什么能省显存？

#低秩适配#参数高效微调#显存优化

训练与微调困难

SFT、RLHF、DPO 三者的区别与联系？

#监督微调#人类反馈强化学习#直接偏好优化

推理与部署困难

vLLM 的 PagedAttention 原理是什么？

#PagedAttention#KV Cache 分页#显存碎片

推理与部署中等

大模型量化有哪些方法？INT8/INT4 的精度损失如何？

#量化方法#AWQ/GPTQ#精度损失

推理与部署中等

KV Cache 是什么？如何降低其显存占用？

#KV Cache#自回归解码#显存占用

RAG 检索增强简单

RAG 解决了大模型的哪些核心问题？基本流程是什么？

#RAG 概念#检索增强#幻觉与时效

RAG 检索增强中等

RAG 中如何提升检索召回质量？

#召回优化#切块策略#混合检索

RAG 检索增强中等

RAG 和微调如何选择？

#RAG vs 微调#适用场景#成本权衡

Agent 智能体中等

ReAct 范式是什么？与 Plan-Execute 的区别？

#ReAct#Plan-Execute#推理-行动循环

Agent 智能体中等

Agent 的记忆机制如何设计？短期 vs 长期？

#短期记忆#长期记忆#上下文管理

Agent 智能体困难

多 Agent 协作有哪些常见模式？

#多 Agent 协作#角色分工#通信协议

前沿专题困难

MoE（混合专家）原理是什么？优缺点？

#MoE 架构#稀疏激活#路由机制

前沿专题中等

推理模型（如 o1 类）与传统 LLM 的区别？

#推理模型#思维链#测试时计算

前沿专题困难

长上下文的外推方案有哪些？

#位置编码外推#RoPE#注意力机制

传统算法简单

什么是过拟合？有哪些解决手段？

#过拟合#正则化#泛化能力

传统算法中等

梯度下降与常见优化器对比？

#梯度下降#SGD/Momentum#Adam

传统算法简单

偏差-方差权衡是什么？

#偏差#方差#权衡

基础理论困难

RoPE 旋转位置编码原理？为何利于长上下文外推？

#RoPE 原理#旋转矩阵#相对位置

基础理论困难

MHA / MQA / GQA / MLA 区别？为何能省 KV Cache？

#注意力头分组#KV Cache 压缩#GQA

基础理论中等

Pre-Norm vs Post-Norm？为何现代大模型用 RMSNorm？

#归一化位置#训练稳定性#RMSNorm

基础理论简单

大模型解码策略对比：top-p / top-k / temperature 怎么选？

#采样策略#温度#top-k / top-p

训练与微调困难

RLHF 中奖励模型如何训练？reward hacking 怎么防？

#奖励模型#偏好标注#reward hacking

训练与微调困难

GRPO 与 PPO 区别？为何 DeepSeek-R1 用 GRPO？

#GRPO#PPO#可验证奖励

推理与部署困难

投机解码（Speculative Decoding）原理？为何能无损加速？

#投机解码#draft model#接受拒绝采样

推理与部署中等

Continuous Batching 与传统批处理有何不同？

#连续批处理#吞吐优化#请求生命周期

推理与部署困难

数据并行/张量并行/流水线并行/ZeRO 区别？

#数据并行#张量并行#流水线并行

训练与微调中等

BF16 与 FP16 区别？为何大模型训练偏好 BF16？

#混合精度#浮点格式#数值范围

RAG 检索增强困难

向量数据库索引原理：HNSW 与 IVF 区别？

#HNSW#IVF#近邻搜索

RAG 检索增强困难

GraphRAG 是什么？与传统向量 RAG 有何不同？

#GraphRAG#知识图谱#社区检测

RAG 检索增强困难

RAG 重排序：Cross-Encoder 与 Bi-Encoder 区别？ColBERT 呢？

#重排序#cross-encoder#bi-encoder

Agent 智能体中等

Function Calling 与 MCP 是什么？有何区别？

#Function Calling#MCP#工具协议

Agent 智能体中等

Agent 工具调用失败如何兜底？如何提升可靠性？

#工具调用可靠性#错误恢复#重试与回退

前沿专题困难

Scaling Law 是什么？Chinchilla 定律改变了什么？

#Scaling Law#Chinchilla#计算最优

前沿专题困难

Flash Attention 原理？为何能加速又省显存？

#Flash Attention#IO-aware#分块计算

前沿专题中等

多模态对齐：CLIP 与 BLIP 原理？为何能跨模态检索？

#CLIP#对比学习#跨模态对齐

传统算法中等

推荐系统召回-排序架构？双塔模型与 DIN 区别？

#召回排序架构#双塔模型#DIN

传统算法中等

推荐系统冷启动怎么解决？

#冷启动#新用户#新物品

训练与微调困难

预训练数据清洗流程？为什么去重和质量过滤重要？

#数据清洗#去重#质量过滤

前沿专题中等

大模型安全与对齐：越狱、红队、宪法 AI 是什么？

#越狱攻击#红队#宪法 AI

基础理论中等

为什么现代大模型都用 Decoder-only 架构？

#Decoder-only#架构对比#Scaling Law

基础理论中等

BPE 分词原理？为什么中文需要特殊处理？

#BPE#子词分词#词表

训练与微调困难

大模型训练 loss spike（损失尖峰）怎么办？

#loss spike#训练稳定性#梯度裁剪

训练与微调困难

QLoRA 与 AdaLoRA 原理？与 LoRA 有何不同？

#QLoRA#AdaLoRA#4bit 量化

训练与微调中等

灾难遗忘是什么？微调如何避免能力丢失？

#灾难遗忘#微调副作用#数据混合

训练与微调中等

模型评测基准有哪些？数据污染如何识别？

#评测基准#MMLU#数据污染

推理与部署困难

SGLang 的 RadixAttention 原理？与 vLLM 区别？

#RadixAttention#KV 复用#结构化生成

推理与部署中等

推理首 token 延迟（TTFT）如何优化？

#TTFT#prefill 优化#chunked prefill

RAG 检索增强困难

Self-RAG 与 Corrective RAG 解决什么问题？

#Self-RAG#Corrective RAG#检索反思

RAG 检索增强中等

RAGAS 评测体系：faithfulness 等指标怎么算？

#RAGAS#评测指标#faithfulness

Agent 智能体困难

Reflexion 反思机制与 Tree of Thoughts 原理？

#Reflexion#Tree of Thoughts#反思

Agent 智能体中等

AutoGen 与 CrewAI 多 Agent 框架怎么选？

#AutoGen#CrewAI#多 Agent 框架

前沿专题困难

DPO 损失函数推导？为何无需奖励模型？

#DPO 损失推导#Bradley-Terry#最优策略

前沿专题困难

Mamba 与状态空间模型（SSM）能替代 Transformer 吗？

#Mamba#状态空间模型#线性复杂度

传统算法中等

协同过滤与矩阵分解原理？冷启动怎么破？

#协同过滤#矩阵分解#隐向量

传统算法困难

Wide & Deep 与 GBDT+LR 原理？特征交叉怎么学？

#Wide & Deep#GBDT+LR#特征交叉

传统算法简单

A/B 测试怎么做？常见陷阱有哪些？

#A/B 测试#假设检验#辛普森悖论

前沿专题中等

对齐税（Alignment Tax）是什么？如何缓解？

#对齐税#能力损失#SFT/RLHF 副作用

RAG 检索增强中等

Embedding 模型怎么选？bge-m3 / gte / jina 区别？

#Embedding 选型#稠密/稀疏/多向量#中文支持

前沿专题中等

多模态大模型评测有哪些难点与基准？

#多模态评测#基准#幻觉评测

训练与微调中等

SFT 数据怎么构造？多少条够用？

#SFT 数据#指令格式#数据量

Agent 智能体中等

Agent 长程任务怎么管上下文？上下文超限怎么办？

#上下文管理#长程任务#压缩

推理与部署中等

大模型服务化部署：Triton / vLLM / TGI 怎么选？

#服务化框架#Triton#TGI

基础理论中等

Transformer 推理 FLOPs 与参数量如何估算？

#FLOPs 估算#参数量#计算量