RAG是权衡LLM的发散性与其准确性而诞生的产物
为何存在
RAG(Retrieval-Augmented Generation,检索增强生成)
诞生: 解决基础LLM的三个核心短板:
- 知识固化: 训练数据固定,无法动态更新知识,导致的知识时效性问题。
- 知识不足: 对冷门、专业领域、机密等特性的知识掌握有限。
- 事实幻觉: 生成看似合理但完全虚构的内容,比之更头疼的是混杂性幻觉。
价值: 低成本控制基础LLM:
- 数据可控: 将私有数据纳入检索库,避免敏感数据泄露给第三方基础模型。
- 引用追溯: 生成的答案附带检索到的参考文档,方便验证可信度与追溯来源。
- 成本效益: 相比微调大模型,RAG成本降低80%。
- 秒级更新: 允许秒级更新知识(股票、价格),而LLM微调需小时级耗时。
设计思想
RAG架构更像一位“学者”,在模仿人类认知双系统(快思考/慢思考)。先查阅文献,再写论文,而非仅凭记忆吃老本。
RAG的本质是将信息检索与文本生成结合,通过动态注入外部知识来增强LLM的能力。其核心逻辑是:
- 检索阶段:从海量私有数据中精准筛选与问题相关的片段。
- 生成阶段:LLM基于检索结果生成答案。
技术实现
RAG技术架构图

- 准备阶段
- 数据准备: 将私有准备的各类型数据利用分块技术进行切分。
- 数据向量化: 用嵌入模型将分块向量化。
- 数据落盘: 向量存入向量数据库,建立高效检索索引。
- 检索阶段
- 用户输入问题 → 转换为Embedding → 在向量库中搜索Top-K相似片段。
- 结合多模块检索、多跳检索、重排序、BM25等技术,提升召回的准确率。
- 生成阶段
- 将检索到的文档片段作为上下文,与用户问题一起输入LLM。
- 调优Prompt限制LLM发散性提高准确性。
企业落地
- 三甲医院:智能医患问答系统
- 实施方: 深圳市第三人民医院
- 方案: DeepSeek+RAG动态增强系统,知识来源300万条临床数据与52万字院内指南
- 效果: 患者满意度97%,节省医生73小时/月(截至2025年2月)
- 来源: 深圳三院AI健康管家搭载DeepSeek,秒级响应守护您的健康
- 测绘院:实景三维知识库
- 实施方: 湖南省自然资源厅直属单位
- 方案: 基于DeepSeek大模型+RAG构建专业地理信息知识库
- 效果: 提升测绘数据语义化检索效率,支持智能解析
- 来源: 省第一测绘院开展实景三维知识库建设与应用培训 - 湖南省自然资源厅
- 华夏银行:数字金融风控系统
- 实施方:全国性股份制商业银行
- 方案:RAG+Agent技术实现企业注销风险预测模型
- 效果:自动化构建判别式AI模型,提升风控效率
- 来源:华夏银行吴永飞等:大语言模型打开银行数字金融发展新思路
未来思考
既然开头说了是权衡的产物,那么发散性与准确性的平衡被打破时,RAG必将面临一个退位局面。
当LLM或者说另一种新的M突破知识固化与幻觉瓶颈时,RAG的“检索增强”功能可能逐渐隐入幕后,很多维护的LLM增强型RAG可能失去其存在的意义。
当然我没看空RAG,秒级更新与数据可控是无法替代。
在我看来未来王者退位,但荣光依旧。RAG不再以“独立技术”存在,但其设计思想会融入LLM架构,形成更智能的自我检索机制,成为LLM的“标准”之一。RAG不是过渡技术,而是人机协作的范式,RAG永远是LLM的移动硬盘。