RAG 系统架构设计模式

原创灵阙教研团队

S 精选提升架构设计 | 约 6 分钟阅读更新于 2026-02-27

AI 导读

RAG 系统架构设计模式从 Naive RAG 到 Modular RAG 的演进路径与生产级实践 Maurice | 灵阙学院一、RAG 三代演进 RAG (Retrieval-Augmented Generation) 并非一成不变的技术方案，而是一个持续演进的架构范式。理解其演进脉络，才能在实际项目中做出正确的架构选择。...

RAG 系统架构设计模式

从 Naive RAG 到 Modular RAG 的演进路径与生产级实践

Maurice | 灵阙学院

一、RAG 三代演进

RAG (Retrieval-Augmented Generation) 并非一成不变的技术方案，而是一个持续演进的架构范式。理解其演进脉络，才能在实际项目中做出正确的架构选择。

┌─────────────────────────────────────────────────────────────────┐
│                      RAG 架构演进路线                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  Naive RAG (2023)          Advanced RAG (2024)                  │
│  ┌──────────────┐          ┌──────────────────┐                 │
│  │ 文档 → 切片   │          │ 文档 → 多策略切片  │                │
│  │ → 向量化      │    ──→   │ → 混合索引        │                │
│  │ → 检索 Top-K  │          │ → 查询改写+检索   │                │
│  │ → 拼接生成    │          │ → 重排+压缩+生成  │                │
│  └──────────────┘          └──────────────────┘                 │
│                                     │                           │
│                                     ▼                           │
│                            Modular RAG (2025)                   │
│                            ┌──────────────────┐                 │
│                            │ 可插拔模块化管线   │                │
│                            │ 路由 → 判断 → 检索 │                │
│                            │ → 评估 → 生成 → 验证│               │
│                            │ (带反馈回路)       │                │
│                            └──────────────────┘                 │
└─────────────────────────────────────────────────────────────────┘

代际	核心特征	典型问题	适用场景
Naive RAG	固定切片 + 单次检索 + 直接拼接	召回噪声大、上下文碎片化	原型验证、简单 QA
Advanced RAG	预检索优化 + 后检索优化	管线复杂度高、调试困难	企业知识库、客服系统
Modular RAG	可编排模块 + 自适应路由 + 反馈回路	工程复杂度最高	多领域混合、高精度要求

二、四种架构模式

2.1 简单架构 (Simple RAG)

最基础的"检索-拼接-生成"模式，适合快速验证。

用户查询 → Embedding → 向量检索(Top-K) → Prompt拼接 → LLM生成 → 返回

核心代码示例:

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import FAISS

# 索引构建
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = FAISS.from_documents(documents, embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})

# 检索 + 生成
prompt = ChatPromptTemplate.from_template(
    "Based on the following context, answer the question.\n"
    "Context: {context}\n"
    "Question: {question}"
)
chain = prompt | ChatOpenAI(model="gpt-4o") | StrOutputParser()

2.2 Agentic RAG

引入 Agent 决策层，根据查询意图动态选择检索策略。

                    ┌──── 向量检索 ────┐
用户查询 → Agent ───┼──── 关键词检索 ──┼──→ 结果融合 → 生成
                    ├──── SQL 查询 ────┤
                    └──── Web 搜索 ────┘

Agent 在此扮演"路由器"角色，判断查询应走向哪条检索通道，甚至可以组合多条通道的结果。

2.3 Graph-Enhanced RAG

利用知识图谱增强检索的结构化推理能力，特别适合实体关系密集的领域。

文档 → 实体抽取 → 知识图谱构建
                      │
用户查询 → 实体识别 → 图遍历(多跳) ─┐
         → 向量检索 ─────────────────┼→ 融合排序 → 生成

适用场景：法规关联查询、医疗诊断辅助、供应链溯源。

2.4 Multi-Modal RAG

处理文本、图表、PDF 扫描件等混合内容。

PDF/图片 → 视觉模型提取 → 文本+表格+图表描述
                                │
音频 → ASR转写 ─────────────────┤
                                ▼
                         统一向量索引 → 多模态检索 → 生成

关键挑战在于不同模态的对齐：图表需要结构化描述，表格需要保留行列关系，代码需要保留语法结构。

三、索引管线设计

索引质量直接决定 RAG 系统的上限。

3.1 文档处理管线

原始文档 → 格式解析 → 清洗/去噪 → 切片策略 → Embedding → 向量存储
              │           │            │
              ▼           ▼            ▼
         PDF/Docx     去页眉页脚    递归切片/语义切片
         Markdown     去重复段落    父子切片/滑动窗口
         HTML/CSV     标准化格式    表格保持完整性

3.2 切片策略对比

策略	原理	优势	劣势
固定长度切片	按字符/Token 数切分	简单、可预测	语义被截断
递归字符切片	按段落/句子/字符逐级尝试	保留段落结构	长段落可能过大
语义切片	按 Embedding 相似度断句	语义完整性最好	计算成本高
父子切片	小块检索、大块送入上下文	精确检索+完整上下文	索引体积翻倍

生产建议：父子切片（子块 256 tokens 检索，父块 1024 tokens 送入上下文）在大多数场景下是性价比最高的选择。

四、查询转换策略

原始查询往往不够精确，查询转换是 Advanced RAG 的核心优化点。

4.1 HyDE (Hypothetical Document Embeddings)

用户查询 → LLM 生成假设性回答 → 对假设回答做 Embedding → 检索

原理：假设回答与真实文档在向量空间中更接近（比问题本身更接近答案）。

4.2 Step-Back Prompting

用户查询: "Python 3.12 中 asyncio.TaskGroup 的异常处理机制是什么？"
       ↓ Step-Back
抽象查询: "Python asyncio 的异常传播机制是什么？"
       ↓ 同时检索两个查询
融合结果 → 生成

4.3 Multi-Query

用户查询 → LLM 生成 3-5 个语义等价但措辞不同的查询
       → 分别检索
       → 去重合并 → 排序 → 生成

五、检索策略

5.1 混合检索 (Hybrid Search)

# 稀疏检索 (BM25) + 稠密检索 (向量) 加权融合
from langchain.retrievers import EnsembleRetriever

sparse_retriever = BM25Retriever.from_documents(docs, k=10)
dense_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

hybrid = EnsembleRetriever(
    retrievers=[sparse_retriever, dense_retriever],
    weights=[0.3, 0.7]  # 根据领域调整权重
)

5.2 多阶段检索

第一阶段: 粗召回 (Top-100, 低精度高召回)
    ↓
第二阶段: 重排序 (Cross-Encoder / Cohere Rerank, Top-10)
    ↓
第三阶段: 上下文压缩 (去除冗余信息, 保留关键段落)
    ↓
送入 LLM 生成

重排序是投入产出比最高的优化手段。一个简单的 Cross-Encoder 可以将检索准确率提升 15-30%。

六、生成优化

6.1 Prompt 压缩

当检索到过多上下文时，需要压缩以适配 LLM 的上下文窗口和注意力分配：

from langchain.retrievers import ContextualCompressionRetriever
from langchain_cohere import CohereRerank

compressor = CohereRerank(model="rerank-v3.5", top_n=5)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=retriever
)

6.2 引用溯源

生产级 RAG 必须支持引用溯源，让用户可以验证生成内容的依据：

生成回答时要求 LLM 标注 [1][2] 引用编号
每个引用对应具体的文档片段 + 来源文件 + 页码/章节

七、生产部署清单

维度	检查项	标准
索引	增量更新机制	支持新增/修改/删除文档的增量索引
索引	切片质量抽检	人工抽样 50+ 切片确认语义完整性
检索	召回率基线	在标注数据集上 Recall@10 >= 0.85
检索	延迟 P99	检索延迟 < 500ms
生成	幻觉率	人工评估幻觉率 < 5%
生成	引用准确率	引用可追溯且内容匹配 > 90%
运维	监控告警	检索空结果率、生成延迟、Token 消耗
运维	回滚方案	索引版本化，支持一键回滚
安全	数据隔离	多租户场景下的检索结果隔离
评估	自动评估	RAGAS / DeepEval 集成到 CI

八、选型决策树

你的场景是什么？
│
├─ 简单 FAQ / 文档问答
│  └─ Simple RAG + 混合检索 + 重排序 (够用)
│
├─ 企业知识库 (多部门/多文档类型)
│  └─ Advanced RAG + 父子切片 + Multi-Query + 权限隔离
│
├─ 实体关系密集 (法规/医疗/金融)
│  └─ Graph-Enhanced RAG + 知识图谱 + 多跳推理
│
├─ 含图表/扫描件/音视频
│  └─ Multi-Modal RAG + 视觉模型 + 统一索引
│
└─ 复杂任务 (需要规划/工具调用/多步骤)
   └─ Agentic RAG + 工具路由 + 反馈回路

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

RAG 系统架构设计模式 — ppt

RAG 架构的三代演进路径

Naive RAG (2023)：采用固定切片、单次检索和直接拼接生成的模式，通常面临召回噪声大和上下文碎片化的问题，主要适用于原型验证和简单 QA 场景 [1]。
Advanced RAG (2024)：在管线中引入预检索优化（如查询改写）与后检索优化（如重排、压缩），管线复杂度提升，更适合企业知识库和客服系统 [1]。
Modular RAG (2025)：具备可编排的模块化管线、自适应路由和反馈回路，是工程复杂度最高的代际，专门应对多领域混合与高精度要求场景 [1]。

四种核心 RAG 架构模式

Simple RAG：最基础的“检索-拼接-生成”模式，适合快速验证想法与简单问答 [1, 2]。
Agentic RAG：引入 Agent 作为“决策路由器”，根据查询意图动态选择向量、关键词、SQL或Web等多条检索通道进行结果融合 [2]。
Graph-Enhanced RAG：利用知识图谱增强检索的结构化多跳推理能力，特别适合法规关联查询、医疗诊断和供应链溯源等实体关系密集的领域 [2, 3]。
Multi-Modal RAG：通过视觉模型和 ASR 技术对齐图表、扫描件、音频等多种模态的数据，并建立统一向量索引进行检索生成 [3]。

索引管线与切片策略设计

文档处理标准化：索引质量决定系统上限，原始文档需要经过格式解析去噪（如去页眉页脚）、切片和 Embedding 才能进入向量存储 [3]。
多样化切片策略：常见的策略包括固定长度切片（简单但易截断语义）、递归字符切片（保留段落结构）、语义切片（语义完整但计算成本高）以及父子切片 [3]。
生产环境最佳实践：推荐采用父子切片策略（例如子块 256 tokens 用于精确检索，父块 1024 tokens 提供完整上下文），这在多数场景下是性价比最高的选择 [3]。

高阶查询转换优化策略

HyDE (假设性文档嵌入)：系统先让 LLM 生成一个假设性回答，然后对该回答进行向量化并检索，因为假设回答在向量空间中比原始问题更接近真实答案 [3]。
Step-Back Prompting：将具体的用户查询进行抽象化（退一步提问），同时检索原始查询和抽象查询，最后融合结果以提升准确性 [3]。
Multi-Query 扩写：由 LLM 将单查询转换为 3-5 个语义等价但措辞不同的查询分别进行检索，通过去重合并与排序来丰富召回内容 [3]。

混合检索与多阶段排序

混合检索 (Hybrid Search)：结合稀疏检索（如 BM25）和稠密检索（向量化），根据具体领域动态调整两者的加权融合比例以实现优势互补 [3, 4]。
多阶段检索管线：通常分为三个阶段：第一阶段进行高召回的粗排（Top-100），第二阶段进行重排序（Top-10），第三阶段进行上下文压缩以剔除冗余 [4]。
重排序与压缩的收益：重排序（如使用 Cross-Encoder）是投入产出比最高的优化手段，可将准确率提升 15-30%；而压缩技术能适配 LLM 的注意力分配和上下文窗口限制 [4]。

生成优化与生产级部署清单

引用溯源机制：生产级 RAG 必须支持防幻觉的溯源能力，生成回答需标注具体的引用编号，并严格对应到文档片段、来源文件与页码 [4]。
核心检索指标控制：在标注数据集上的召回率（Recall@10）必须 >= 0.85，且 P99 的检索延迟应控制在 500ms 以内 [5]。
质量监控与容灾：需要人工评估将生成幻觉率控制在 5% 以下，同时具备处理文档增量更新的机制与索引版本化的一键回滚方案 [4, 5]。
安全与自动评估：在多租户场景下需保证检索结果的权限隔离，同时将 RAGAS 或 DeepEval 等自动化评估工具集成到 CI/CD 流程中 [5]。

场景化选型决策树

简单 FAQ / 基础文档问答：直接采用 Simple RAG，搭配混合检索与重排序即可满足需求 [5]。
企业级知识库：面临多部门多文档类型时，推荐 Advanced RAG，并结合父子切片、Multi-Query 及权限隔离机制 [5]。
高密集实体 / 多模态内容：若是法规、医疗金融等场景，应选用带知识图谱的 Graph-Enhanced RAG；若是图表音视频混合，则选用 Multi-Modal RAG [5]。
复杂任务型处理：当需要任务规划、多步骤执行或外部工具调用时，需升级为具有路由和反馈回路的 Agentic RAG [5]。

博客摘要 + 核心看点点击展开

RAG 系统架构设计模式 — summary

SEO 友好博客摘要

本文深入解析检索增强生成（RAG）系统架构从 Naive、Advanced 到 Modular RAG 的演进路径与生产级实践[1]。文章详述了 Simple、Agentic、Graph-Enhanced 及 Multi-Modal 四大主流 RAG 架构模式，并全面剖析文档切片、查询转换策略（如 HyDE）、混合检索及重排序等核心优化手段[1-4]。此外，作者还提供了涵盖索引更新、幻觉评估的完整生产部署检查清单与场景选型决策树[4, 5]。本指南为开发者构建和优化企业级 RAG 应用提供了极具价值的落地参考。

核心看点