RAG是权衡LLM的发散性与其准确性而诞生的产物

为何存在

RAG(Retrieval-Augmented Generation,检索增强生成)

诞生: 解决基础LLM的三个核心短板:

  1. 知识固化: 训练数据固定,无法动态更新知识,导致的知识时效性问题。
  2. 知识不足: 对冷门、专业领域、机密等特性的知识掌握有限。
  3. 事实幻觉: 生成看似合理但完全虚构的内容,比之更头疼的是混杂性幻觉。

价值: 低成本控制基础LLM:

  1. 数据可控: 将私有数据纳入检索库,避免敏感数据泄露给第三方基础模型。
  2. 引用追溯: 生成的答案附带检索到的参考文档,方便验证可信度与追溯来源。
  3. 成本效益: 相比微调大模型,RAG成本降低80%。
  4. 秒级更新: 允许秒级更新知识(股票、价格),而LLM微调需小时级耗时。

设计思想

RAG架构更像一位“学者”,在模仿人类认知双系统(快思考/慢思考)。先查阅文献,再写论文,而非仅凭记忆吃老本。

RAG的本质是将信息检索与文本生成结合,通过动态注入外部知识来增强LLM的能力。其核心逻辑是:

  • 检索阶段:从海量私有数据中精准筛选与问题相关的片段。
  • 生成阶段:LLM基于检索结果生成答案。

技术实现

RAG技术架构图

RAG技术架构图
RAG技术架构图
  1. 准备阶段
    1. 数据准备: 将私有准备的各类型数据利用分块技术进行切分。
    2. 数据向量化: 用嵌入模型将分块向量化。
    3. 数据落盘: 向量存入向量数据库,建立高效检索索引。
  2. 检索阶段
    1. 用户输入问题 → 转换为Embedding → 在向量库中搜索Top-K相似片段。
    2. 结合多模块检索、多跳检索、重排序、BM25等技术,提升召回的准确率。
  3. 生成阶段
    1. 将检索到的文档片段作为上下文,与用户问题一起输入LLM。
    2. 调优Prompt限制LLM发散性提高准确性。

企业落地

未来思考

既然开头说了是权衡的产物,那么发散性与准确性的平衡被打破时,RAG必将面临一个退位局面。

当LLM或者说另一种新的M突破知识固化与幻觉瓶颈时,RAG的“检索增强”功能可能逐渐隐入幕后,很多维护的LLM增强型RAG可能失去其存在的意义。

当然我没看空RAG,秒级更新与数据可控是无法替代。

在我看来未来王者退位,但荣光依旧。RAG不再以“独立技术”存在,但其设计思想会融入LLM架构,形成更智能的自我检索机制,成为LLM的“标准”之一。RAG不是过渡技术,而是人机协作的范式,RAG永远是LLM的移动硬盘。


本站由 钟意 使用 Stellar 1.30.2 主题创建。
又拍云 提供CDN加速/云存储服务
vercel 提供托管服务
湘ICP备2023019799号-1
总访问 次 | 本页访问