← 返回题库
传统算法困难

Wide & Deep 与 GBDT+LR 原理?特征交叉怎么学?

#Wide & Deep#GBDT+LR#特征交叉#记忆与泛化

题目

请说明 GBDT+LR 与 Wide & Deep 两个经典推荐模型如何学习特征交叉,以及它们的设计思想。

参考答案

为什么需要特征交叉:单特征线性模型无法捕捉”组合特征”(如”年轻 + 女性 + 美妆”才有意义),交叉特征是推荐效果的关键。

GBDT+LR(Facebook 2014)

  • 思路:用 GBDT 自动学特征交叉,把叶子节点编码喂给 LR。
  • 流程:样本过 GBDT,每棵树的叶子节点编号做 one-hot,拼接成稀疏向量作为 LR 输入。
  • 一棵树就是一条”特征交叉规则”:路径上的特征组合即交叉特征。
  • 优势:GBDT 自动发现高阶交叉,免去人工组合;LR 输出可解释、上线快。
  • 局限:GBDT 一旦训好就固定,新交叉模式需重训;树模型对高维稀疏特征不友好。

Wide & Deep(Google 2016)

  • 双塔联合训练:
    • Wide 侧:记忆(memorization)。广义线性模型 + 人工交叉特征(如”用户历史点击类目 × 当前物品类目”)。强记忆已见过的共现模式。
    • Deep 侧:泛化(generalization)。多层前馈网络,embedding 拼接做输入。对未见组合有泛化能力。
  • 联合训练:两侧梯度共同回传,平衡记忆与泛化。
  • 设计哲学:Wide 学记忆、Deep 学泛化,二者互补。

对比

维度GBDT+LRWide & Deep
交叉学习树路径人工交叉 + 网络
泛化来源树结构Deep 网络
高维稀疏强(embedding)
在线学习难(树重训)易(梯度更新)
适合中低维稠密高维稀疏大规模

衍生

  • Deep & Cross:用 Cross 层自动学高阶交叉,替代 Wide 侧人工交叉。
  • DeepFM:用 FM 替代人工交叉,自动学二阶交叉。
  • DCN-V2:Cross 改进版,更易学复杂交叉。
  • 共同趋势:自动化特征交叉取代人工组合。

面试加分点

  • 指出特征交叉是推荐系统”记忆能力”的核心——用户历史与候选的交叉往往是最强信号。
  • Wide & Deep 的”记忆 vs 泛化”框架是理解所有后续推荐模型的钥匙。
  • 现代推荐已普遍用 DIN/DCN 等自动交叉,但人工交叉(如用户-物品共现)仍是强 baseline。

出处:博客园《初学推荐系统:GBDT+LR 模型》、Wide & Deep 论文《Wide & Deep Learning for Recommender Systems》。

内容来源

整理自博客园《初学推荐系统:GBDT+LR 模型》及 Wide & Deep 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。