INTERVIEW

AI 面试题库

七大模块、覆盖基础到前沿。点击模块或难度标签实时筛选,所有题目均标注真实出处。

模块
难度

基础理论中等

主流开源大模型体系有哪些?prefix LM 与 causal LM 的区别?

#开源模型生态#架构范式#注意力掩码
基础理论中等

Transformer 的注意力机制原理?Self-Attention 如何计算?

#Self-Attention#Q/K/V 计算#多头注意力
基础理论中等

什么是大模型的涌现能力?成因是什么?

#涌现能力#规模定律#评估指标
训练与微调困难

全参数微调需要多少显存?如何估算?

#显存估算#优化器状态#混合精度
训练与微调中等

LoRA 的原理是什么?为什么能省显存?

#低秩适配#参数高效微调#显存优化
训练与微调困难

SFT、RLHF、DPO 三者的区别与联系?

#监督微调#人类反馈强化学习#直接偏好优化
推理与部署困难

vLLM 的 PagedAttention 原理是什么?

#PagedAttention#KV Cache 分页#显存碎片
推理与部署中等

大模型量化有哪些方法?INT8/INT4 的精度损失如何?

#量化方法#AWQ/GPTQ#精度损失
推理与部署中等

KV Cache 是什么?如何降低其显存占用?

#KV Cache#自回归解码#显存占用
RAG 检索增强简单

RAG 解决了大模型的哪些核心问题?基本流程是什么?

#RAG 概念#检索增强#幻觉与时效
RAG 检索增强中等

RAG 中如何提升检索召回质量?

#召回优化#切块策略#混合检索
RAG 检索增强中等

RAG 和微调如何选择?

#RAG vs 微调#适用场景#成本权衡
Agent 智能体中等

ReAct 范式是什么?与 Plan-Execute 的区别?

#ReAct#Plan-Execute#推理-行动循环
Agent 智能体中等

Agent 的记忆机制如何设计?短期 vs 长期?

#短期记忆#长期记忆#上下文管理
Agent 智能体困难

多 Agent 协作有哪些常见模式?

#多 Agent 协作#角色分工#通信协议
前沿专题困难

MoE(混合专家)原理是什么?优缺点?

#MoE 架构#稀疏激活#路由机制
前沿专题中等

推理模型(如 o1 类)与传统 LLM 的区别?

#推理模型#思维链#测试时计算
前沿专题困难

长上下文的外推方案有哪些?

#位置编码外推#RoPE#注意力机制
传统算法简单

什么是过拟合?有哪些解决手段?

#过拟合#正则化#泛化能力
传统算法中等

梯度下降与常见优化器对比?

#梯度下降#SGD/Momentum#Adam
传统算法简单

偏差-方差权衡是什么?

#偏差#方差#权衡
基础理论困难

RoPE 旋转位置编码原理?为何利于长上下文外推?

#RoPE 原理#旋转矩阵#相对位置
基础理论困难

MHA / MQA / GQA / MLA 区别?为何能省 KV Cache?

#注意力头分组#KV Cache 压缩#GQA
基础理论中等

Pre-Norm vs Post-Norm?为何现代大模型用 RMSNorm?

#归一化位置#训练稳定性#RMSNorm
基础理论简单

大模型解码策略对比:top-p / top-k / temperature 怎么选?

#采样策略#温度#top-k / top-p
训练与微调困难

RLHF 中奖励模型如何训练?reward hacking 怎么防?

#奖励模型#偏好标注#reward hacking
训练与微调困难

GRPO 与 PPO 区别?为何 DeepSeek-R1 用 GRPO?

#GRPO#PPO#可验证奖励
推理与部署困难

投机解码(Speculative Decoding)原理?为何能无损加速?

#投机解码#draft model#接受拒绝采样
推理与部署中等

Continuous Batching 与传统批处理有何不同?

#连续批处理#吞吐优化#请求生命周期
推理与部署困难

数据并行/张量并行/流水线并行/ZeRO 区别?

#数据并行#张量并行#流水线并行
训练与微调中等

BF16 与 FP16 区别?为何大模型训练偏好 BF16?

#混合精度#浮点格式#数值范围
RAG 检索增强困难

向量数据库索引原理:HNSW 与 IVF 区别?

#HNSW#IVF#近邻搜索
RAG 检索增强困难

GraphRAG 是什么?与传统向量 RAG 有何不同?

#GraphRAG#知识图谱#社区检测
RAG 检索增强困难

RAG 重排序:Cross-Encoder 与 Bi-Encoder 区别?ColBERT 呢?

#重排序#cross-encoder#bi-encoder
Agent 智能体中等

Function Calling 与 MCP 是什么?有何区别?

#Function Calling#MCP#工具协议
Agent 智能体中等

Agent 工具调用失败如何兜底?如何提升可靠性?

#工具调用可靠性#错误恢复#重试与回退
前沿专题困难

Scaling Law 是什么?Chinchilla 定律改变了什么?

#Scaling Law#Chinchilla#计算最优
前沿专题困难

Flash Attention 原理?为何能加速又省显存?

#Flash Attention#IO-aware#分块计算
前沿专题中等

多模态对齐:CLIP 与 BLIP 原理?为何能跨模态检索?

#CLIP#对比学习#跨模态对齐
传统算法中等

推荐系统召回-排序架构?双塔模型与 DIN 区别?

#召回排序架构#双塔模型#DIN
传统算法中等

推荐系统冷启动怎么解决?

#冷启动#新用户#新物品
训练与微调困难

预训练数据清洗流程?为什么去重和质量过滤重要?

#数据清洗#去重#质量过滤
前沿专题中等

大模型安全与对齐:越狱、红队、宪法 AI 是什么?

#越狱攻击#红队#宪法 AI
基础理论中等

为什么现代大模型都用 Decoder-only 架构?

#Decoder-only#架构对比#Scaling Law
基础理论中等

BPE 分词原理?为什么中文需要特殊处理?

#BPE#子词分词#词表
训练与微调困难

大模型训练 loss spike(损失尖峰)怎么办?

#loss spike#训练稳定性#梯度裁剪
训练与微调困难

QLoRA 与 AdaLoRA 原理?与 LoRA 有何不同?

#QLoRA#AdaLoRA#4bit 量化
训练与微调中等

灾难遗忘是什么?微调如何避免能力丢失?

#灾难遗忘#微调副作用#数据混合
训练与微调中等

模型评测基准有哪些?数据污染如何识别?

#评测基准#MMLU#数据污染
推理与部署困难

SGLang 的 RadixAttention 原理?与 vLLM 区别?

#RadixAttention#KV 复用#结构化生成
推理与部署中等

推理首 token 延迟(TTFT)如何优化?

#TTFT#prefill 优化#chunked prefill
RAG 检索增强困难

Self-RAG 与 Corrective RAG 解决什么问题?

#Self-RAG#Corrective RAG#检索反思
RAG 检索增强中等

RAGAS 评测体系:faithfulness 等指标怎么算?

#RAGAS#评测指标#faithfulness
Agent 智能体困难

Reflexion 反思机制与 Tree of Thoughts 原理?

#Reflexion#Tree of Thoughts#反思
Agent 智能体中等

AutoGen 与 CrewAI 多 Agent 框架怎么选?

#AutoGen#CrewAI#多 Agent 框架
前沿专题困难

DPO 损失函数推导?为何无需奖励模型?

#DPO 损失推导#Bradley-Terry#最优策略
前沿专题困难

Mamba 与状态空间模型(SSM)能替代 Transformer 吗?

#Mamba#状态空间模型#线性复杂度
传统算法中等

协同过滤与矩阵分解原理?冷启动怎么破?

#协同过滤#矩阵分解#隐向量
传统算法困难

Wide & Deep 与 GBDT+LR 原理?特征交叉怎么学?

#Wide & Deep#GBDT+LR#特征交叉
传统算法简单

A/B 测试怎么做?常见陷阱有哪些?

#A/B 测试#假设检验#辛普森悖论
前沿专题中等

对齐税(Alignment Tax)是什么?如何缓解?

#对齐税#能力损失#SFT/RLHF 副作用
RAG 检索增强中等

Embedding 模型怎么选?bge-m3 / gte / jina 区别?

#Embedding 选型#稠密/稀疏/多向量#中文支持
前沿专题中等

多模态大模型评测有哪些难点与基准?

#多模态评测#基准#幻觉评测
训练与微调中等

SFT 数据怎么构造?多少条够用?

#SFT 数据#指令格式#数据量
Agent 智能体中等

Agent 长程任务怎么管上下文?上下文超限怎么办?

#上下文管理#长程任务#压缩
推理与部署中等

大模型服务化部署:Triton / vLLM / TGI 怎么选?

#服务化框架#Triton#TGI
基础理论中等

Transformer 推理 FLOPs 与参数量如何估算?

#FLOPs 估算#参数量#计算量