← 返回题库
RAG 检索增强困难

GraphRAG 是什么?与传统向量 RAG 有何不同?

#GraphRAG#知识图谱#社区检测#全局问题

题目

微软提出的 GraphRAG 被认为解决了传统向量 RAG 的某些短板。请说明 GraphRAG 的流程,以及它相比向量 RAG 的优势与代价。

参考答案

传统向量 RAG 的短板

  • 多跳推理弱:跨段落、跨文档的关联(如”A 的创始人与 B 的 CTO 是同一人”)难以靠局部检索拼出。
  • 全局问题失效:如”这个领域的主要趋势是什么”——答案散布全库,Top-K 检索只能拿到局部片段。
  • 缺乏结构化关联:纯向量无法表达实体间关系。

GraphRAG 流程(微软方案):

  1. 实体与关系抽取:用 LLM 从文档中抽取实体、关系,构建知识图谱(三元组)。
  2. 社区检测:对图跑 Leiden/Louvain 算法,把节点聚成层级社区。
  3. 社区摘要:用 LLM 为每个社区生成摘要,形成层级摘要树。
  4. 查询时
    • 局部问题(具体实体):从图检索相关实体邻域。
    • 全局问题(趋势/汇总):遍历社区摘要,做 map-reduce 式汇总回答。

相比向量 RAG 的优势

  1. 多跳推理:图结构天然支持跨实体关联遍历。
  2. 全局问题:社区摘要把全库信息压缩成可消化的层级,能回答”总体趋势”类问题。
  3. 可解释:答案可追溯到图中的实体与关系路径。

代价

  1. 构建成本高:抽取实体/关系、社区检测、摘要生成都需大量 LLM 调用,索引成本远高于向量 RAG。
  2. 更新复杂:新增文档需重跑图构建与社区检测,不像向量库增量插入那么简单。
  3. 召回依赖抽取质量:LLM 抽取实体/关系有噪声,影响图谱质量。

HybridRAG:结合 GraphRAG + VectorRAG,检索时同时用图结构与向量,兼顾全局与局部、结构化与语义,是工程上的折中方案。

面试加分点

  • 能点出 GraphRAG 的核心创新是社区检测 + 层级摘要,把”全库问题”转化为”摘要汇总问题”。
  • 指出 GraphRAG 适合长文档库、需要全局洞察的场景(如研报分析、文献综述),简单 QA 用向量 RAG 更划算。
  • 提及成本是 GraphRAG 落地最大障碍,需配合缓存、增量更新等优化。

出处:微软 GraphRAG 论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》、头条《Vector Graph RAG 开源》。

内容来源

整理自微软 GraphRAG 论文与《Vector Graph RAG 开源》相关文章

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。