RAG进化了，深扒Claude Code源码中RAG高级技巧

张开发

• 2026/5/22 6:46:26 • 15 分钟阅读

分享文章

本文基于对Claude Code源码的深入分析揭示其如何将RAG从外挂知识库升级为操作系统级内存管理。最近Claude Code的源码被动开源引发了广泛关注。在深入分析其源码后我们发现它完全颠覆了传统RAG检索增强生成的玩法。传统RAG大多停留在文档切分、向量库存储、相似度检索的初级阶段而Claude Code则通过一系列反常识的技巧将RAG提升到了一个全新的高度。本文将详细拆解Claude Code源码中四个关键的RAG高级技巧这些技巧不仅改变了RAG的实现方式更重新定义了RAG的本质。不用向量库的-即时检索传统RAG的第一反应往往是构建向量库先对文档进行Embedding存储到向量数据库查询时再通过相似度检索召回。这一流程虽然直观但带来了延迟、成本和准确率等多方面的挑战。Claude Code的Explore Agent则完全摒弃了向量库。它作为一个纯读模式的代码探索专家当主Agent需要了解某个模块、查找某个函数或理解某段逻辑时不会去向量库中搜相似而是直接调用Glob和Grep进行实时搜索。为什么这更有效语义相似 vs 精确存在向量库搜索的是语义相似在代码场景中这可能导致两个完全不同的函数因注释相似而被召回而真正需要的精确符号反而被忽略。而Glob和Grep搜索的是精确存在直接定位到具体的接口定义或模块文件。动态触发这种检索不是提前做好的而是在Agent思考过程中动态触发的。模型自己决定我该搜什么用什么工具搜搜到后读哪个文件更准更轻这不再是传统意义上的RAG而是带工具的实时检索它比RAG更准确、更轻量。Prompt里藏着的-缓存经济学很多人写系统提示词时恨不得把所有规则、规范和例子都塞进去导致Prompt越来越长每次调用都消耗大量Token。Claude Code的提示词设计则巧妙地按能否缓存进行了切分静态前缀包含身份定位、行为哲学、工具使用规范等在整个会话中基本不变的内容。这一部分可以被缓存后续调用几乎不花成本。动态后缀包含会话相关的信息如当前打开的Skill、MCP工具的使用说明、Session-specific的临时指令。精妙之处这种设计将Prompt从文本变成了可缓存的运行时资源。更进一步在Agent的fork机制中Claude Code甚至刻意让子Agent继承主Agent的系统提示词和工具定义以确保API请求的前缀字节完全相同从而命中缓存。这意味着Claude Code将Token视为需要精细管理的预算而非无限消耗品。一个会算账的RAG系统才可能真正在生产环境中高效运行。向量索引预筛选-上下文压缩传统RAG流程中检索出的上下文往往过长超出模型窗口限制。为此通常会进行预筛选基于向量相似度或其他规则挑选最相关的几条信息。Claude Code则采取了更聪明的做法让模型自己压缩上下文。源码中存在明确的Session-specific guidance和Token预算管理逻辑。当上下文逼近窗口上限时系统不会粗暴地删除旧消息而是让模型将之前的对话、工具结果、中间产出压缩成一个结构化的紧凑摘要。这个摘要保留了关键信息但去掉了冗长细节可能将10000 Token的上下文压缩到2000 Token而核心内容不丢失。为什么这更优这相当于将RAG的预筛选从检索阶段移到了模型消费阶段。向量相似度永远无法准确判断什么信息对当前任务重要但模型自己知道。因此模型的自压缩比外部预筛选更精准。MCP不只是工具桥还是行为说明注入通道MCPModel Context Protocol通常被用作让模型调用外部工具的桥梁。但Claude Code的源码揭示了一个更深层的用法MCP还能注入如何使用工具的行为说明。在prompts.ts中有一个关键函数getMcpInstructionsSection()。该函数会遍历所有连接的MCP Server如果某个Server提供了instructions字段就会将这些说明直接拼进系统提示词中。这意味着什么MCP不仅能注入工具还能注入工具使用规范。例如一个数据库MCP工具可以在instructions中写明“查询时优先用索引字段避免全表扫描大批量数据要用分页不要一次拉完。”这些说明成为系统提示词的一部分直接影响模型的行为。这本质上是RAG的扩展RAG的本质是把外部知识注入模型上下文而MCP instructions做的是把工具的使用知识注入上下文。这打破了RAG的边界——它不再局限于搜网页、搜文档而是可以扩展到搜工具怎么用、搜系统怎么玩的层面。总结Claude Code的这四个技巧共同指向一个核心理念RAG的本质不是外挂知识库而是让模型在正确的时候拿到正确的信息。向量库只是实现这一目标的手段之一而非唯一甚至不一定是最好的。Claude Code通过实时检索、Prompt缓存、上下文压缩和MCP行为注入构建了一个更智能、更高效的RAG系统。如果你也在构建Agent系统不妨思考一下你的RAG是否还停留在向量库召回的阶段还是已经向操作系统级内存管理的方向迈进学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

RAG进化了，深扒Claude Code源码中RAG高级技巧

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

毫米波成像系统入门：从黑体辐射理论到馈源天线选型指南

Windows APK直装工具：资源占用优化与跨平台测试全攻略

Pixel Aurora Engine效果对比：传统PS手绘 vs Pixel Aurora AI生成效率分析

雯雯的后宫-造相Z-Image-瑜伽女孩真实案例分享：10组高质量瑜伽体式生成效果展示

从逻辑门到CPU：计算机核心工作原理解析

3重突破：解放NCM格式的跨平台音乐转换工具

Translumo：终极屏幕实时翻译解决方案，打破语言障碍的完整指南

[项目名称]：简洁有力的项目描述

告别重复造轮子：用快马AI一键生成Nodejs高效开发脚手架与工具

2026届毕业生推荐的降AI率方案实测分析

告别PlayerPrefs！在Unity中用SQLite搭建轻量级数据库系统（含数据加密方案）

Eigen库实战指南——从基础到精通