钟意2025-06-15更新于：2025-06-17

浅谈RAG

RAG是权衡LLM的发散性与其准确性而诞生的产物

为何存在

RAG（Retrieval-Augmented Generation，检索增强生成）

诞生：解决基础LLM的三个核心短板：

知识固化：训练数据固定，无法动态更新知识，导致的知识时效性问题。
知识不足：对冷门、专业领域、机密等特性的知识掌握有限。
事实幻觉：生成看似合理但完全虚构的内容，比之更头疼的是混杂性幻觉。

价值：低成本控制基础LLM：

数据可控：将私有数据纳入检索库，避免敏感数据泄露给第三方基础模型。
引用追溯：生成的答案附带检索到的参考文档，方便验证可信度与追溯来源。
成本效益：相比微调大模型，RAG成本降低80%。
秒级更新：允许秒级更新知识(股票、价格)，而LLM微调需小时级耗时。

设计思想

RAG架构更像一位“学者”，在模仿人类认知双系统（快思考/慢思考）。先查阅文献，再写论文，而非仅凭记忆吃老本。

RAG的本质是将信息检索与文本生成结合，通过动态注入外部知识来增强LLM的能力。其核心逻辑是：

检索阶段：从海量私有数据中精准筛选与问题相关的片段。
生成阶段：LLM基于检索结果生成答案。

技术实现

RAG技术架构图

RAG技术架构图

RAG技术架构图

准备阶段
1. 数据准备：将私有准备的各类型数据利用分块技术进行切分。
2. 数据向量化：用嵌入模型将分块向量化。
3. 数据落盘：向量存入向量数据库，建立高效检索索引。
检索阶段
1. 用户输入问题 → 转换为Embedding → 在向量库中搜索Top-K相似片段。
2. 结合多模块检索、多跳检索、重排序、BM25等技术，提升召回的准确率。
生成阶段
1. 将检索到的文档片段作为上下文，与用户问题一起输入LLM。
2. 调优Prompt限制LLM发散性提高准确性。

企业落地

三甲医院：智能医患问答系统
- 实施方：深圳市第三人民医院
- 方案： DeepSeek+RAG动态增强系统，知识来源300万条临床数据与52万字院内指南
- 效果：患者满意度97%，节省医生73小时/月（截至2025年2月）
- 来源：深圳三院AI健康管家搭载DeepSeek，秒级响应守护您的健康
测绘院：实景三维知识库
- 实施方：湖南省自然资源厅直属单位
- 方案：基于DeepSeek大模型+RAG构建专业地理信息知识库
- 效果：提升测绘数据语义化检索效率，支持智能解析
- 来源：省第一测绘院开展实景三维知识库建设与应用培训 - 湖南省自然资源厅
华夏银行：数字金融风控系统
- 实施方：全国性股份制商业银行
- 方案：RAG+Agent技术实现企业注销风险预测模型
- 效果：自动化构建判别式AI模型，提升风控效率
- 来源：华夏银行吴永飞等：大语言模型打开银行数字金融发展新思路

未来思考

既然开头说了是权衡的产物，那么发散性与准确性的平衡被打破时，RAG必将面临一个退位局面。

当LLM或者说另一种新的M突破知识固化与幻觉瓶颈时，RAG的“检索增强”功能可能逐渐隐入幕后，很多维护的LLM增强型RAG可能失去其存在的意义。

当然我没看空RAG，秒级更新与数据可控是无法替代。

在我看来未来王者退位，但荣光依旧。RAG不再以“独立技术”存在，但其设计思想会融入LLM架构，形成更智能的自我检索机制，成为LLM的“标准”之一。RAG不是过渡技术，而是人机协作的范式，RAG永远是LLM的移动硬盘。

本文为钟意撰写, 采用 CC BY-NC-SA 4.0 许可协议, 转载请注明出处。