题目
微软提出的 GraphRAG 被认为解决了传统向量 RAG 的某些短板。请说明 GraphRAG 的流程,以及它相比向量 RAG 的优势与代价。
参考答案
传统向量 RAG 的短板:
- 多跳推理弱:跨段落、跨文档的关联(如”A 的创始人与 B 的 CTO 是同一人”)难以靠局部检索拼出。
- 全局问题失效:如”这个领域的主要趋势是什么”——答案散布全库,Top-K 检索只能拿到局部片段。
- 缺乏结构化关联:纯向量无法表达实体间关系。
GraphRAG 流程(微软方案):
- 实体与关系抽取:用 LLM 从文档中抽取实体、关系,构建知识图谱(三元组)。
- 社区检测:对图跑 Leiden/Louvain 算法,把节点聚成层级社区。
- 社区摘要:用 LLM 为每个社区生成摘要,形成层级摘要树。
- 查询时:
- 局部问题(具体实体):从图检索相关实体邻域。
- 全局问题(趋势/汇总):遍历社区摘要,做 map-reduce 式汇总回答。
相比向量 RAG 的优势:
- 多跳推理:图结构天然支持跨实体关联遍历。
- 全局问题:社区摘要把全库信息压缩成可消化的层级,能回答”总体趋势”类问题。
- 可解释:答案可追溯到图中的实体与关系路径。
代价:
- 构建成本高:抽取实体/关系、社区检测、摘要生成都需大量 LLM 调用,索引成本远高于向量 RAG。
- 更新复杂:新增文档需重跑图构建与社区检测,不像向量库增量插入那么简单。
- 召回依赖抽取质量:LLM 抽取实体/关系有噪声,影响图谱质量。
HybridRAG:结合 GraphRAG + VectorRAG,检索时同时用图结构与向量,兼顾全局与局部、结构化与语义,是工程上的折中方案。
面试加分点:
- 能点出 GraphRAG 的核心创新是社区检测 + 层级摘要,把”全库问题”转化为”摘要汇总问题”。
- 指出 GraphRAG 适合长文档库、需要全局洞察的场景(如研报分析、文献综述),简单 QA 用向量 RAG 更划算。
- 提及成本是 GraphRAG 落地最大障碍,需配合缓存、增量更新等优化。
出处:微软 GraphRAG 论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》、头条《Vector Graph RAG 开源》。
内容来源
整理自微软 GraphRAG 论文与《Vector Graph RAG 开源》相关文章
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。