检索增强生成(RAG)已成为将大语言模型锚定到外部知识的默认架构。但大多数 RAG 系统仍然依赖扁平的向量搜索——将文档视为孤立的片段,不理解实体之间的关系。香港大学发表于 EMNLP 2025 Findings 的 LightRAG 提供了一种根本不同的方法:基于图谱结构的索引与双层检索系统1。
凭借 3.4 万+ GitHub 星标和 250 位贡献者2,LightRAG 已成为最受欢迎的开源 RAG 框架之一。问题是它是否名副其实。
LightRAG 的独特之处
传统 RAG 系统(如 LangChain 的默认检索器或 LlamaIndex)使用向量相似度搜索——嵌入文档片段并找到与查询最接近的匹配。这对于简单的事实查找有效,但当问题需要理解实体之间的关系时就会失效1。
LightRAG 采用了不同的方法。在索引阶段,它从文档中提取实体和关系,构建知识图谱。在检索阶段,它使用双层策略1:
- 低层检索:专注于特定实体及其直接关系——适用于精确的事实查询
- 高层检索:呈现更广泛的主题和主题——适用于分析性或探索性问题
图谱结构与向量表示的集成使得相关实体及其关系的高效检索成为可能,在保持上下文相关性的同时显著提高了响应时间1。
基准测试结果:LightRAG 对比业界
LightRAG 团队在四个领域(农业、计算机科学、法律和混合)对四个基线进行了评估2。
表 1:整体性能对比 2
| 系统 | 农业 | 计算机科学 | 法律 | 混合 |
|---|---|---|---|---|
| NaiveRAG | 32.4% | 38.8% | 15.2% | 40.0% |
| LightRAG | 67.6% | 61.2% | 84.8% | 60.0% |
| RQ-RAG | 32.4% | 38.0% | 14.4% | 40.0% |
| LightRAG | 67.6% | 62.0% | 85.6% | 60.0% |
| HyDE | 26.0% | 41.6% | 26.8% | 40.4% |
| LightRAG | 74.0% | 58.4% | 73.2% | 59.6% |
| GraphRAG | 45.6% | 48.4% | 48.4% | 50.4% |
| LightRAG | 54.4% | 51.6% | 51.6% | 49.6% |
结果令人瞩目。LightRAG 在农业和法律领域比 NaiveRAG 高出 35 个百分点以上。与微软的图谱 RAG 框架 GraphRAG 相比,LightRAG 在四个领域中的三个获胜,法律领域的差距最为显著(51.6% 对 48.4%)2。
技术架构
LightRAG 的架构包含三个核心组件1:
1. 基于图谱的文本索引
与传统 RAG 系统将文档存储为扁平文本片段不同,LightRAG 在索引阶段提取实体和关系,构建知识图谱。这使得系统能够理解概念之间的关系——而不仅仅是它们是什么。
2. 双层检索
检索系统在两个层面运行:
- 实体级:查找特定实体及其直接关系
- 主题级:识别知识图谱中更广泛的主题和模式
这种双层方法使 LightRAG 能够同时处理精确的事实查询(“法国的首都是什么?“)和分析性问题(“法国与欧盟的关系如何演变?”)。
3. 增量更新
LightRAG 包含一个增量更新算法,允许新数据集成而无需重建整个索引。这对于数据不断变化的生产系统至关重要1。
实际应用考量
LightRAG 支持多种 LLM 提供商,包括 OpenAI、Ollama、Azure、Gemini 和 HuggingFace2。它还支持各种嵌入模型,并可以与重排序系统集成。
该框架主要用 Python 编写(81.2%),辅以 TypeScript 组件(12.9%)2。采用 MIT 许可证,积极维护中,已有 70 个版本,最新版本(v1.4.15)于 2026 年 4 月 19 日发布2。
何时使用 LightRAG
LightRAG 在以下场景最有价值1:
- 查询需要理解实体之间的关系
- 需要处理相互引用的文档
- 希望系统能够增量更新而无需完全重建
- 在关系重要的领域工作(法律、研究、技术文档)
对于简单的事实查找(例如”东京天气如何?”),传统的基于向量的 RAG 可能仍然足够且更快。
局限性
与 GraphRAG 的基准比较比其他基线更接近,表明基于图谱的方法相比简单方法存在收益递减。此外,LightRAG 的图谱构建在索引阶段增加了开销——权衡是查询时更快更准确的检索。
法律领域的结果特别有趣:LightRAG 的 84.8% 对比 NaiveRAG 的 15.2% 表明,对于复杂的、关系密集的领域,基于图谱的 RAG 不仅更好——而且是必需的2。
结论
LightRAG 代表了 RAG 系统的重大进步。通过将图谱结构化索引与双层检索相结合,它解决了传统 RAG 的根本局限:无法理解实体之间的关系。凭借 3.4 万+ GitHub 星标和 EMNLP 2025 的发表,它已成为基于图谱 RAG 的事实标准。
对于在复杂、关系密集数据上构建 RAG 系统的团队,LightRAG 值得认真考虑。基准测试显示其相对于传统和基于图谱的替代方案的明显优势,增量更新能力使其在生产环境中具有实用价值。
参考来源
Footnotes
-
LightRAG: Simple and Fast Retrieval-Augmented Generation — EMNLP 2025 Findings 论文,作者 Guo 等人(香港大学),描述基于图谱的索引和双层检索架构 https://aclanthology.org/2025.findings-emnlp.568/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
HKUDS/LightRAG GitHub 仓库 — 3.4 万+ 星标,LightRAG 与 NaiveRAG、RQ-RAG、HyDE 和 GraphRAG 在四个领域的基准比较结果 https://github.com/HKUDS/LightRAG ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8