题目
请说明协同过滤与矩阵分解的原理,以及它们各自如何处理(或无法处理)冷启动。
参考答案
协同过滤(CF):
- 核心思想:相似的人会喜欢相似的东西。基于用户-物品交互矩阵(评分/点击)。
- User-based CF:找与目标用户相似的用户,推荐他们喜欢而目标用户未交互的物品。
- Item-based CF:找与目标用户已喜欢物品相似的物品推荐。
- 相似度用余弦/Jaccard/Pearson。
矩阵分解(MF):
- 把稀疏的用户-物品矩阵 分解为低秩矩阵:, 是用户隐向量、 是物品隐向量。
- 预测:。
- 训练:最小化已知评分的平方误差 + 正则。
- 经典算法:SVD、ALS(交替最小二乘)、SGD。
- 是 Netflix Prize(2006–2009)的核心突破。
MF vs CF:
- MF 学到隐向量,泛化更强,可预测未观察到的相似性。
- CF 直接基于共现统计,泛化弱、稀疏场景差。
- MF 向量维度小(如 32/64),存储与计算高效。
冷启动困境:
- 新用户:无交互历史 → 无 User-based 相似度,无 向量。
- 新物品:无人交互 → 无 Item-based 相似度,无 向量。
- 本质:CF/MF 只用交互信号,无内容/属性信息,纯靠交互必然冷启动失败。
缓解:
- 内容补充:用物品特征(标题/图/类目)初始化物品向量;用用户属性(地域/年龄)初始化用户向量。
- 混合模型:把内容特征与交互特征一起喂入(如因子分解机 FM、Wide&Deep)。
- 流行度兜底:新用户先推热门,快速积累交互。
- 迁移:从其他产品迁移用户画像。
- Bandit 探索:主动给新物品曝光,收集反馈。
面试加分点:
- 指出 CF/MF 是推荐系统起点,现代深度模型(双塔、DIN)仍以”学用户/物品向量”为核心思想。
- MF 的隐向量与 embedding 是一脉相承——把 MF 视为”单层无激活的神经网络”即可理解其与现代深度推荐的关系。
- 冷启动的本质是”信息不足”,CF/MF 这类纯交互模型必然中招,所以现代系统都加内容/属性特征。
出处:CSDN《推荐系统之协同过滤和矩阵分解》、《推荐系统:协同过滤、矩阵分解、逻辑回归、FM、FFM、GBDT+LR》。
内容来源
整理自 CSDN《推荐系统之协同过滤和矩阵分解》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。