← 返回题库
传统算法中等

协同过滤与矩阵分解原理?冷启动怎么破?

#协同过滤#矩阵分解#隐向量#冷启动

题目

请说明协同过滤与矩阵分解的原理,以及它们各自如何处理(或无法处理)冷启动。

参考答案

协同过滤(CF)

  • 核心思想:相似的人会喜欢相似的东西。基于用户-物品交互矩阵(评分/点击)。
  • User-based CF:找与目标用户相似的用户,推荐他们喜欢而目标用户未交互的物品。
  • Item-based CF:找与目标用户已喜欢物品相似的物品推荐。
  • 相似度用余弦/Jaccard/Pearson。

矩阵分解(MF)

  • 把稀疏的用户-物品矩阵 RR 分解为低秩矩阵:RUVTR \approx UV^TUU 是用户隐向量、VV 是物品隐向量。
  • 预测:r^ui=UuVi\hat{r}_{ui} = U_u \cdot V_i
  • 训练:最小化已知评分的平方误差 + 正则。
  • 经典算法:SVD、ALS(交替最小二乘)、SGD。
  • 是 Netflix Prize(2006–2009)的核心突破。

MF vs CF

  • MF 学到隐向量,泛化更强,可预测未观察到的相似性。
  • CF 直接基于共现统计,泛化弱、稀疏场景差。
  • MF 向量维度小(如 32/64),存储与计算高效。

冷启动困境

  • 新用户:无交互历史 → 无 User-based 相似度,无 UuU_u 向量。
  • 新物品:无人交互 → 无 Item-based 相似度,无 ViV_i 向量。
  • 本质:CF/MF 只用交互信号,无内容/属性信息,纯靠交互必然冷启动失败。

缓解

  1. 内容补充:用物品特征(标题/图/类目)初始化物品向量;用用户属性(地域/年龄)初始化用户向量。
  2. 混合模型:把内容特征与交互特征一起喂入(如因子分解机 FM、Wide&Deep)。
  3. 流行度兜底:新用户先推热门,快速积累交互。
  4. 迁移:从其他产品迁移用户画像。
  5. Bandit 探索:主动给新物品曝光,收集反馈。

面试加分点

  • 指出 CF/MF 是推荐系统起点,现代深度模型(双塔、DIN)仍以”学用户/物品向量”为核心思想。
  • MF 的隐向量与 embedding 是一脉相承——把 MF 视为”单层无激活的神经网络”即可理解其与现代深度推荐的关系。
  • 冷启动的本质是”信息不足”,CF/MF 这类纯交互模型必然中招,所以现代系统都加内容/属性特征。

出处:CSDN《推荐系统之协同过滤和矩阵分解》、《推荐系统:协同过滤、矩阵分解、逻辑回归、FM、FFM、GBDT+LR》。

内容来源

整理自 CSDN《推荐系统之协同过滤和矩阵分解》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。