人大团队颠覆传统搜索:让AI智能体来训练搜索系统效果提升近30%

张开发
2026/4/17 16:20:44 15 分钟阅读

分享文章

人大团队颠覆传统搜索:让AI智能体来训练搜索系统效果提升近30%
这项研究来自中国人民大学高瓴人工智能学院与中科院计算所AI安全重点实验室发表于2026年3月30日研究编号为arXiv:2604.04949v1。有兴趣深入了解的读者可以通过该编号查询完整论文。搜索引擎一直是我们获取信息的重要工具就像一位知识渊博的图书管理员我们提出问题它帮我们找到答案。但是现在随着AI智能体的兴起这位图书管理员面临着前所未有的挑战。传统的搜索系统是根据人类用户的行为来训练的比如我们点击哪些网页、在页面停留多长时间等。然而AI智能体使用搜索的方式与人类截然不同它们不是为了满足即时信息需求而是为了推进复杂的问题解决过程。当我们把一个为人类服务的搜索引擎直接交给AI智能体使用时就像让一位习惯了为个人顾客服务的图书管理员突然要为一个研究团队服务一样。研究团队需要的不是快速浏览而是深度挖掘、反复查证、建立知识连接。这种根本性的差异导致了严重的不匹配问题。中国人民大学的研究团队敏锐地察觉到了这个问题并提出了一个革命性的解决方案让AI智能体自己的行为轨迹来训练搜索系统。这就像是让研究团队自己来培训图书管理员告诉管理员什么样的资料真正有用什么样的检索方式最有效。一、AI智能体搜索行为的秘密三大关键发现为了理解AI智能体是如何与搜索系统互动的研究团队就像行为学家观察动物一样仔细分析了上万条智能体执行任务的完整轨迹。这些轨迹记录了智能体从接到任务开始到最终给出答案的整个过程中的每一步操作。通过这种深度观察研究团队发现了三个令人惊讶的现象这些发现彻底改变了我们对智能体搜索行为的理解。首先是浏览行为是成功的必要条件。这听起来可能有些显而易见但实际情况比想象中更有趣。研究团队发现那些最终成功完成任务的智能体轨迹显示出明显更高的浏览频率。具体来说成功轨迹中智能体浏览文档的比例比失败轨迹高出约30%。这就像是成功的研究者总是会深入阅读找到的文献而不是仅仅看看标题就下结论。更有趣的是智能体浏览的证据文档数量与最终任务成功率呈现出完美的单调递增关系。当智能体没有浏览任何包含关键证据的文档时成功率几乎为零但随着浏览证据文档数量的增加成功率稳步上升直至接近100%。第二个发现是未浏览文档是可靠的负面信号。在传统的人类搜索中我们经常面临位置偏见的问题。比如排在搜索结果前面的网页更容易被点击不是因为它们更相关而是因为它们更显眼。但研究团队发现AI智能体的行为截然不同。智能体浏览文档的位置分布相对均匀它们会主动评估不同位置的候选文档而不是简单地按顺序点击。这意味着当智能体选择不浏览某个文档时这通常反映的是对该文档相关性的明确判断而不是因为没有看到。这种行为模式使得未被浏览的文档成为了高质量的负面训练样本。第三个关键发现是浏览后的推理长度反映文档价值。这可能是最有趣的发现。研究团队注意到智能体在浏览不同文档后的思考过程长度存在显著差异。当智能体浏览到真正有用的文档时它会产生更长、更详细的推理过程就像一个研究者读到重要文献时会做更多笔记一样。具体数据显示智能体浏览包含关键证据的文档后平均推理长度比浏览无关文档后长约40%。而在那些最终失败的任务中智能体往往在浏览文档后很快放弃产生的推理极其简短。这种推理长度的差异为评估文档的真实价值提供了一个精确的指标。这三个发现共同揭示了一个重要事实AI智能体的搜索行为虽然与人类不同但却蕴含着更加直接和可靠的相关性信号。它们不会被位置偏见影响它们的浏览选择更加理性它们的思考深度直接反映了获得信息的价值。二、LRAT框架让智能体轨迹变成搜索系统的老师基于对智能体行为的深入理解研究团队开发了一个名为LRAT的创新训练框架。LRAT这个名字来自Learning to Retrieve from Agent Trajectories即从智能体轨迹中学习检索。这个框架就像是一个聪明的学习系统能够从智能体的行为中提取出有价值的经验然后用这些经验来改进搜索系统。LRAT的工作原理可以用三步走的方式来理解。第一步是粗筛阶段就像淘金者首先要找到含金的沙子。系统观察智能体的搜索和浏览行为将那些被智能体选择浏览的文档标记为潜在的正面样本将同一批搜索结果中未被浏览的其他文档标记为负面样本。这个步骤充分利用了前面发现的第一和第二个规律。第二步是精筛阶段相当于从含金沙子中真正提炼出黄金。虽然被浏览的文档大多数是有价值的但也有一些是智能体浏览后发现不相关而放弃的。为了识别这些假阳性样本LRAT引入了一个基于大语言模型的智能过滤器。这个过滤器会分析智能体浏览文档后的推理内容判断智能体是否真的从该文档中获得了有用信息。实验显示这个过滤器能够保留97.2%的真正有价值文档同时剔除约25%的无关文档大大提高了训练数据的质量。第三步是加权学习这是LRAT最独特的创新。传统的机器学习往往将所有正面样本等同对待但LRAT认识到不同文档对智能体的价值是不同的。系统会根据智能体浏览文档后推理过程的长度来估算该文档的重要性。推理越长说明智能体从中获得的信息越有价值该文档在训练过程中就会获得更高的权重。这种设计灵感来自于人类搜索中的停留时间概念但在智能体场景下推理长度成为了更准确的价值指标。为了实现加权学习LRAT采用了一个受时间感知点击模型启发的数学公式。简单来说系统使用一个指数衰减函数来将推理长度转换为权重分数。这个函数的设计原理是短推理对应较低权重长推理对应较高权重但权重增长会逐渐饱和避免极端长的推理过度影响训练。具体来说权重的计算公式为 w (1/μ) × (1 - exp(-ln(2) × l/β))其中l是推理长度β是一个根据数据集中位数推理长度确定的参数μ是全局归一化系数。最终LRAT使用修改后的对比学习损失函数来训练搜索模型。这个损失函数不仅考虑了正负样本的区分还通过权重机制突出了高价值文档的重要性。整个训练过程就像是让搜索系统在智能体专家的指导下反复练习逐渐掌握什么样的文档对什么样的查询最有价值。三、实验验证跨越6种智能体的一致性提升为了验证LRAT框架的有效性研究团队设计了一系列全面的实验。这些实验就像是在不同的考场上测试同一套学习方法是否真正有效。实验覆盖了从4B参数到358B参数的六种不同智能体包括专门针对搜索任务优化的智能体和通用的大型语言模型。实验使用了两个具有代表性的测试平台。第一个是InfoSeek-Eval这是一个包含300个多步信息查找任务的测试集用来评估智能体在其训练领域内的表现就像学生在熟悉的科目上参加考试。第二个是BrowseComp-Plus包含830个复杂的人类编写问题用来测试智能体的跨领域泛化能力相当于让学生在完全陌生的科目上应考。实验结果令人印象深刻。在InfoSeek-Eval测试中使用LRAT训练的搜索系统帮助各种智能体实现了平均28.6%的成功率提升。最显著的改进出现在AgentCPM-4B上成功率从40.3%跃升至55.7%相对提升幅度达到38.2%。即使是最强大的GLM-4.7-358B模型也从67.7%提升到了82.0%获得了21.1%的相对改进。更令人惊喜的是在跨领域测试BrowseComp-Plus上的表现。所有智能体在证据检索能力上都获得了显著提升平均相对改进达到27.5%。这表明LRAT学习到的不仅仅是特定领域的搜索技巧而是更加通用的相关性判断能力。除了成功率的提升LRAT还带来了执行效率的改善。智能体完成任务所需的平均步数普遍减少在InfoSeek-Eval上平均减少了约30%。这意味着改进后的搜索系统能够更快地为智能体提供所需信息避免了无效的反复搜索。为了深入理解LRAT各个组件的贡献研究团队还进行了详细的组件分析实验。结果显示仅仅使用智能体浏览行为作为监督信号就能带来显著改进证明了基本假设的正确性。加入推理感知的过滤机制后性能进一步提升验证了精筛步骤的价值。最后加入基于推理长度的重要性加权后系统达到了最佳性能突出了细粒度价值评估的重要性。研究团队还测试了LRAT在不同数据规模下的表现。随着训练轨迹数量从1万增加到3万智能体性能持续改善表明LRAT具有良好的可扩展性。这种特性对实际应用非常重要因为在真实环境中智能体轨迹数据会不断积累系统需要能够从更多数据中持续学习。四、数据飞轮机制自我改进的智能搜索生态LRAT框架最具前瞻性的特点是它能够支持数据飞轮机制这是一种自我强化的学习循环。数据飞轮的概念可以这样理解搜索系统的改进吸引更多智能体使用更多使用产生更多高质量的轨迹数据这些数据又被用来进一步改进搜索系统形成一个良性循环。为了验证这种机制的可行性研究团队进行了一个创新的模拟实验。他们模拟了一个真实的部署环境让改进后的搜索系统为智能体提供服务同时收集新产生的智能体轨迹然后用这些新轨迹继续改进搜索系统。这个过程重复进行了5轮每轮使用1万个新查询。实验结果证明了数据飞轮机制的有效性。在5轮迭代过程中智能体的任务成功率从初始的18%稳步上升到最终的24%搜索系统的证据检索能力也从50%提升到约60%。更重要的是这种改进趋势在实验结束时仍在持续没有出现性能饱和的迹象。这个发现具有重要的实际意义。它表明LRAT不仅仅是一种一次性的优化方法而是一种可持续的改进机制。在实际部署中搜索系统可以不断从新的智能体交互中学习持续优化自身性能无需人工干预或额外的标注工作。数据飞轮机制还带来了另一个重要优势成本效益。传统的搜索系统优化往往需要大量的人工标注和专家知识成本高昂且难以扩展。而LRAT利用智能体自然产生的轨迹数据几乎没有额外的数据收集成本。每当智能体执行任务时都会自动产生可用于进一步改进搜索系统的训练数据。研究团队特别测试了使用不完美轨迹数据的情况。在实际应用中并非所有智能体轨迹都来自成功的任务执行。实验显示即使使用包含错误答案的轨迹数据LRAT仍能实现性能改进只是改进幅度略小。这个发现增强了LRAT在真实环境中的实用性因为系统不需要完美的训练数据就能持续改进。五、技术实现与实用性分析LRAT框架的一个重要优势是其实现的简洁性和实用性。整个系统基于标准的双编码器架构构建这是目前最广泛使用的密集检索模型架构。这种设计选择确保了LRAT可以轻松集成到现有的搜索系统中无需进行大规模的基础设施改造。在具体实现上LRAT的训练过程相对直接。系统首先收集智能体执行轨迹然后通过观察搜索-浏览转换提取初始的查询-文档对。接下来使用大语言模型对浏览后的推理进行质量评估过滤掉低质量的正样本。最后根据推理长度计算重要性权重使用修改后的InfoNCE损失函数训练模型。整个训练过程的计算开销适中。使用标准的GPU集群在包含约9万训练样本的数据集上完整的训练过程可以在几个小时内完成。这种效率使得LRAT可以支持频繁的模型更新适应快速变化的查询模式和内容分布。LRAT框架还展现出良好的鲁棒性。研究团队测试了不同检索预算top-K值对性能的影响发现LRAT在各种设置下都能保持稳定的改进效果。当K值设置为1时智能体只能看到最相关的文档LRAT仍能带来显著提升。当K值增加到20时虽然噪声文档增多但LRAT训练的系统仍能准确识别最有价值的内容。研究团队还分析了LRAT对不同类型查询的适应性。实验显示LRAT不仅在事实性查询上表现出色在需要复杂推理的查询上也能带来改进。这种广泛的适用性源于LRAT学习机制的本质它不是记住特定的查询-文档匹配模式而是学习如何评估文档对解决问题的价值。从系统集成的角度看LRAT具有良好的模块化特性。搜索系统的其他组件如查询理解、文档索引、排序算法等都可以保持不变。LRAT只需要替换或微调最终的相关性评分模块这大大降低了部署的复杂性和风险。值得注意的是LRAT的成功不依赖于特定的智能体架构或任务类型。实验中涵盖的智能体从简单的搜索代理到复杂的推理模型参数量从几十亿到几千亿不等都能从LRAT中受益。这种架构无关性使得LRAT具有广泛的应用前景。说到底这项研究代表了搜索技术发展的一个重要转折点。传统的搜索系统优化依赖于人类用户的反馈信号这种方法在AI智能体时代面临着根本性的挑战。LRAT提出的让智能体教导搜索系统的思路不仅解决了当前的技术问题更为未来的人机协作搜索生态指明了方向。归根结底LRAT的价值不仅在于它能让搜索系统更好地服务AI智能体更在于它开创了一种全新的技术学习范式。在这种范式下AI系统不再是被动的工具而是积极的老师通过自身的行为数据来改进为自己服务的基础设施。这种自我改进、相互学习的AI生态系统可能正是未来人工智能技术发展的重要方向。对于普通用户而言LRAT的成功意味着我们将拥有更智能、更精准的搜索体验。当搜索系统能够更好地理解和满足AI助手的需求时这些AI助手就能为我们提供更准确、更全面的答案。这种技术进步最终会惠及每一个需要获取信息、解决问题的普通人。QAQ1LRAT框架是如何从智能体轨迹中学习的ALRAT通过观察智能体的搜索和浏览行为来学习。它将智能体选择浏览的文档作为正面样本未浏览的文档作为负面样本然后用大语言模型分析智能体浏览后的推理内容来过滤掉低质量样本最后根据推理长度给不同文档分配重要性权重进行训练。Q2使用LRAT训练的搜索系统相比传统方法有多大提升A实验结果显示LRAT在六种不同智能体上实现了平均28.6%的任务成功率提升证据检索能力平均提升27.5%。最显著的改进案例中智能体成功率从40.3%跃升至55.7%相对提升达38.2%。Q3LRAT的数据飞轮机制如何工作A数据飞轮是一种自我强化循环改进的搜索系统吸引更多智能体使用产生更多高质量轨迹数据这些数据又被用来继续优化搜索系统。研究团队的5轮迭代实验显示智能体成功率从18%稳步提升到24%证明了这种机制的有效性。

更多文章