题目
请说明 GBDT+LR 与 Wide & Deep 两个经典推荐模型如何学习特征交叉,以及它们的设计思想。
参考答案
为什么需要特征交叉:单特征线性模型无法捕捉”组合特征”(如”年轻 + 女性 + 美妆”才有意义),交叉特征是推荐效果的关键。
GBDT+LR(Facebook 2014):
- 思路:用 GBDT 自动学特征交叉,把叶子节点编码喂给 LR。
- 流程:样本过 GBDT,每棵树的叶子节点编号做 one-hot,拼接成稀疏向量作为 LR 输入。
- 一棵树就是一条”特征交叉规则”:路径上的特征组合即交叉特征。
- 优势:GBDT 自动发现高阶交叉,免去人工组合;LR 输出可解释、上线快。
- 局限:GBDT 一旦训好就固定,新交叉模式需重训;树模型对高维稀疏特征不友好。
Wide & Deep(Google 2016):
- 双塔联合训练:
- Wide 侧:记忆(memorization)。广义线性模型 + 人工交叉特征(如”用户历史点击类目 × 当前物品类目”)。强记忆已见过的共现模式。
- Deep 侧:泛化(generalization)。多层前馈网络,embedding 拼接做输入。对未见组合有泛化能力。
- 联合训练:两侧梯度共同回传,平衡记忆与泛化。
- 设计哲学:Wide 学记忆、Deep 学泛化,二者互补。
对比:
| 维度 | GBDT+LR | Wide & Deep |
|---|---|---|
| 交叉学习 | 树路径 | 人工交叉 + 网络 |
| 泛化来源 | 树结构 | Deep 网络 |
| 高维稀疏 | 弱 | 强(embedding) |
| 在线学习 | 难(树重训) | 易(梯度更新) |
| 适合 | 中低维稠密 | 高维稀疏大规模 |
衍生:
- Deep & Cross:用 Cross 层自动学高阶交叉,替代 Wide 侧人工交叉。
- DeepFM:用 FM 替代人工交叉,自动学二阶交叉。
- DCN-V2:Cross 改进版,更易学复杂交叉。
- 共同趋势:自动化特征交叉取代人工组合。
面试加分点:
- 指出特征交叉是推荐系统”记忆能力”的核心——用户历史与候选的交叉往往是最强信号。
- Wide & Deep 的”记忆 vs 泛化”框架是理解所有后续推荐模型的钥匙。
- 现代推荐已普遍用 DIN/DCN 等自动交叉,但人工交叉(如用户-物品共现)仍是强 baseline。
出处:博客园《初学推荐系统:GBDT+LR 模型》、Wide & Deep 论文《Wide & Deep Learning for Recommender Systems》。
内容来源
整理自博客园《初学推荐系统:GBDT+LR 模型》及 Wide & Deep 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。