INTERVIEW
AI 面试题库
七大模块、覆盖基础到前沿。点击模块或难度标签实时筛选,所有题目均标注真实出处。
模块
难度
基础理论中等
主流开源大模型体系有哪些?prefix LM 与 causal LM 的区别?
#开源模型生态#架构范式#注意力掩码
基础理论中等
Transformer 的注意力机制原理?Self-Attention 如何计算?
#Self-Attention#Q/K/V 计算#多头注意力
基础理论中等
什么是大模型的涌现能力?成因是什么?
#涌现能力#规模定律#评估指标
训练与微调困难
全参数微调需要多少显存?如何估算?
#显存估算#优化器状态#混合精度
训练与微调中等
LoRA 的原理是什么?为什么能省显存?
#低秩适配#参数高效微调#显存优化
训练与微调困难
SFT、RLHF、DPO 三者的区别与联系?
#监督微调#人类反馈强化学习#直接偏好优化
推理与部署困难
vLLM 的 PagedAttention 原理是什么?
#PagedAttention#KV Cache 分页#显存碎片
推理与部署中等
大模型量化有哪些方法?INT8/INT4 的精度损失如何?
#量化方法#AWQ/GPTQ#精度损失
推理与部署中等
KV Cache 是什么?如何降低其显存占用?
#KV Cache#自回归解码#显存占用
RAG 检索增强简单
RAG 解决了大模型的哪些核心问题?基本流程是什么?
#RAG 概念#检索增强#幻觉与时效
RAG 检索增强中等
RAG 中如何提升检索召回质量?
#召回优化#切块策略#混合检索
RAG 检索增强中等
RAG 和微调如何选择?
#RAG vs 微调#适用场景#成本权衡
Agent 智能体中等
ReAct 范式是什么?与 Plan-Execute 的区别?
#ReAct#Plan-Execute#推理-行动循环
Agent 智能体中等
Agent 的记忆机制如何设计?短期 vs 长期?
#短期记忆#长期记忆#上下文管理
Agent 智能体困难
多 Agent 协作有哪些常见模式?
#多 Agent 协作#角色分工#通信协议
前沿专题困难
MoE(混合专家)原理是什么?优缺点?
#MoE 架构#稀疏激活#路由机制
前沿专题中等
推理模型(如 o1 类)与传统 LLM 的区别?
#推理模型#思维链#测试时计算
前沿专题困难
长上下文的外推方案有哪些?
#位置编码外推#RoPE#注意力机制
传统算法简单
什么是过拟合?有哪些解决手段?
#过拟合#正则化#泛化能力
传统算法中等
梯度下降与常见优化器对比?
#梯度下降#SGD/Momentum#Adam
传统算法简单
偏差-方差权衡是什么?
#偏差#方差#权衡
基础理论困难
RoPE 旋转位置编码原理?为何利于长上下文外推?
#RoPE 原理#旋转矩阵#相对位置
基础理论困难
MHA / MQA / GQA / MLA 区别?为何能省 KV Cache?
#注意力头分组#KV Cache 压缩#GQA
基础理论中等
Pre-Norm vs Post-Norm?为何现代大模型用 RMSNorm?
#归一化位置#训练稳定性#RMSNorm
基础理论简单
大模型解码策略对比:top-p / top-k / temperature 怎么选?
#采样策略#温度#top-k / top-p
训练与微调困难
RLHF 中奖励模型如何训练?reward hacking 怎么防?
#奖励模型#偏好标注#reward hacking
训练与微调困难
GRPO 与 PPO 区别?为何 DeepSeek-R1 用 GRPO?
#GRPO#PPO#可验证奖励
推理与部署困难
投机解码(Speculative Decoding)原理?为何能无损加速?
#投机解码#draft model#接受拒绝采样
推理与部署中等
Continuous Batching 与传统批处理有何不同?
#连续批处理#吞吐优化#请求生命周期
推理与部署困难
数据并行/张量并行/流水线并行/ZeRO 区别?
#数据并行#张量并行#流水线并行
训练与微调中等
BF16 与 FP16 区别?为何大模型训练偏好 BF16?
#混合精度#浮点格式#数值范围
RAG 检索增强困难
向量数据库索引原理:HNSW 与 IVF 区别?
#HNSW#IVF#近邻搜索
RAG 检索增强困难
GraphRAG 是什么?与传统向量 RAG 有何不同?
#GraphRAG#知识图谱#社区检测
RAG 检索增强困难
RAG 重排序:Cross-Encoder 与 Bi-Encoder 区别?ColBERT 呢?
#重排序#cross-encoder#bi-encoder
Agent 智能体中等
Function Calling 与 MCP 是什么?有何区别?
#Function Calling#MCP#工具协议
Agent 智能体中等
Agent 工具调用失败如何兜底?如何提升可靠性?
#工具调用可靠性#错误恢复#重试与回退
前沿专题困难
Scaling Law 是什么?Chinchilla 定律改变了什么?
#Scaling Law#Chinchilla#计算最优
前沿专题困难
Flash Attention 原理?为何能加速又省显存?
#Flash Attention#IO-aware#分块计算
前沿专题中等
多模态对齐:CLIP 与 BLIP 原理?为何能跨模态检索?
#CLIP#对比学习#跨模态对齐
传统算法中等
推荐系统召回-排序架构?双塔模型与 DIN 区别?
#召回排序架构#双塔模型#DIN
传统算法中等
推荐系统冷启动怎么解决?
#冷启动#新用户#新物品
训练与微调困难
预训练数据清洗流程?为什么去重和质量过滤重要?
#数据清洗#去重#质量过滤
前沿专题中等
大模型安全与对齐:越狱、红队、宪法 AI 是什么?
#越狱攻击#红队#宪法 AI
基础理论中等
为什么现代大模型都用 Decoder-only 架构?
#Decoder-only#架构对比#Scaling Law
基础理论中等
BPE 分词原理?为什么中文需要特殊处理?
#BPE#子词分词#词表
训练与微调困难
大模型训练 loss spike(损失尖峰)怎么办?
#loss spike#训练稳定性#梯度裁剪
训练与微调困难
QLoRA 与 AdaLoRA 原理?与 LoRA 有何不同?
#QLoRA#AdaLoRA#4bit 量化
训练与微调中等
灾难遗忘是什么?微调如何避免能力丢失?
#灾难遗忘#微调副作用#数据混合
训练与微调中等
模型评测基准有哪些?数据污染如何识别?
#评测基准#MMLU#数据污染
推理与部署困难
SGLang 的 RadixAttention 原理?与 vLLM 区别?
#RadixAttention#KV 复用#结构化生成
推理与部署中等
推理首 token 延迟(TTFT)如何优化?
#TTFT#prefill 优化#chunked prefill
RAG 检索增强困难
Self-RAG 与 Corrective RAG 解决什么问题?
#Self-RAG#Corrective RAG#检索反思
RAG 检索增强中等
RAGAS 评测体系:faithfulness 等指标怎么算?
#RAGAS#评测指标#faithfulness
Agent 智能体困难
Reflexion 反思机制与 Tree of Thoughts 原理?
#Reflexion#Tree of Thoughts#反思
Agent 智能体中等
AutoGen 与 CrewAI 多 Agent 框架怎么选?
#AutoGen#CrewAI#多 Agent 框架
前沿专题困难
DPO 损失函数推导?为何无需奖励模型?
#DPO 损失推导#Bradley-Terry#最优策略
前沿专题困难
Mamba 与状态空间模型(SSM)能替代 Transformer 吗?
#Mamba#状态空间模型#线性复杂度
传统算法中等
协同过滤与矩阵分解原理?冷启动怎么破?
#协同过滤#矩阵分解#隐向量
传统算法困难
Wide & Deep 与 GBDT+LR 原理?特征交叉怎么学?
#Wide & Deep#GBDT+LR#特征交叉
传统算法简单
A/B 测试怎么做?常见陷阱有哪些?
#A/B 测试#假设检验#辛普森悖论
前沿专题中等
对齐税(Alignment Tax)是什么?如何缓解?
#对齐税#能力损失#SFT/RLHF 副作用
RAG 检索增强中等
Embedding 模型怎么选?bge-m3 / gte / jina 区别?
#Embedding 选型#稠密/稀疏/多向量#中文支持
前沿专题中等
多模态大模型评测有哪些难点与基准?
#多模态评测#基准#幻觉评测
训练与微调中等
SFT 数据怎么构造?多少条够用?
#SFT 数据#指令格式#数据量
Agent 智能体中等
Agent 长程任务怎么管上下文?上下文超限怎么办?
#上下文管理#长程任务#压缩
推理与部署中等
大模型服务化部署:Triton / vLLM / TGI 怎么选?
#服务化框架#Triton#TGI
基础理论中等
Transformer 推理 FLOPs 与参数量如何估算?
#FLOPs 估算#参数量#计算量
该筛选条件下暂无题目