RAG 幻觉顽疾怎么破？MARCH 多智能体全攻略（非常硬核），自我检查机制从入门到精通，收藏这一篇就够了！

张开发

• 2026/4/8 9:57:38 • 15 分钟阅读

分享文章

RAG 幻觉顽疾怎么破？MARCH 多智能体全攻略（非常硬核），自我检查机制从入门到精通，收藏这一篇就够了！

一、多智能体强化学习缓解RAG幻觉思路MARCHRAG其实有的时候并不能解决幻觉问题反而会带来新的幻觉问题因为无法保证大模型能够老老实实的根据给定的材料回答问题例如让它查资料RAG再回答问题时它经常说的话看着通顺但和资料里的事实对不上金融、看病这些事上这种错误很危险。这也就是我们常说的RAG中的幻觉问题。那么这个本质上其实就是大模型自身的遵循问题那么如何去设计一套机制让它更老实地按照给定的内容做回答大家已经做了一些尝试。例如做SFT训练让模型学标准答案监督微调但是模型学的是“说话的腔调”不是“事实对不对”【学的是模板】事后检查。让另一个模型当“裁判”检查答案但这个裁判会看到原始答案容易被带偏比如原始答案错了裁判也跟着觉得“好像是对的”也就是“确认偏差”等于白检查强化约束。给模型定奖惩但奖惩不好设定通常会使用多维度评估压缩为粗粒度的标量得分只看“答案整体好不好”不抠“每一句话对不对”模型就算中间错了只要最后结果对照样拿奖励。这种粒度损失限制了对单个陈述的验证能力无法提供充分信号来强化数据密集型任务【比如一些很细小的场景金融、医疗】所需的严谨证据基础。所以强化这条路要继续走下去那就再细化来看看多智能体强化学习缓解RAG幻觉思路MARCH【这也是一个大帽子】先说思路给大模型加一套 “自我检查的公正流程”自己先答题自己拆成小问题自己闭着眼睛不看原始答案重新查资料答小问题最后自己对比错一个就重罚然后倒逼模型关注细小的内容。论文在《MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination》https://arxiv.org/pdf/2603.24579代码在https://github.com/Qwen-Applications/MARCH。把“回答问题”和“检查答案”彻底分开让检查时完全看不到原始答案保证公正再用严格的奖惩让模型每一句话都和资料对得上做细致性对齐。来看下核心设计包括一个Solver、一个Proposer和一个Checker三个agent一个很典型的编排。具体的实现逻辑如下step1、响应生成Solver根据查询和检索到的文档生成响应输入的查询和检索到的上下文来生成根据用户的问题查到的资料正常回答问题先出一个原始答案提示词如下例如初步响应结果是step2、逐条生成声明Proposer充当“响应原子化器”将叙述分解为离散且可验证的声明也就是将回答分解为个离散的事实性声明以问答QA格式呈现也就是把答题的出的原始答案拆成一个一个的“小问题小答案”。提示词如下比如原始答案说“78%的患者有这个症状89%有那个症状”它就拆成“问题1多少比例患者有这个症状答案78”“问题2多少比例患者有那个症状答案89”如下step3、事实验证最后Checker仅根据提供的检索文档回答所有原子性问题即仅依据源文档重新回答这些声明严格屏蔽Solver的原始输出也就是对着拆答案的出的那些“小问题”纯靠资料重新挨个回答给出自己的“小答案”提示词如下结果如下step4、零容忍奖励ZTR采用“全有或全无”的二元奖励强制事实一致性结合PPO联合优化。只要Proposer提取的声明与Checker基于文档的验证结果存在差异即对整个响应施加惩罚仅当所有命题完全匹配时得正奖励。提示词如下也就是把答题的的小答案和检查员的小答案挨个对比只要有一个对不上不管其他多对直接判“不及格”给模型扣惩罚只有所有小答案都完全一样才判“及格”不惩罚。二、奖励设置上的发现和最终效果接着上面提到的零容忍奖励ZTR进一步看看这个奖励上有些有趣的发现。一个是奖励计算逻辑。有两个错误率奖励(ERR)基于错误主张比例的成比例惩罚ERR−err/total其中total为生成的主张总数err为检查器识别为错误的主张数量【不如零容忍惩罚ZTRLlama3.1模型训练测试RAGtruth等测试数据平均61.25%对比55.46%】这里要提到基准有RAGTruth、FaithBench、ContextualJudgeBench、Facts Grounding常用于评估检索增强生成中幻觉该基准包含三种任务类型问答、数据到文本生成以及摘要生成每种任务类型均在响应层面包含人工标注的幻觉。一个是奖励标量。两种标量分配方式基于惩罚−1/0和基于激励0/1结果是STEM数据集测试表明−1/0标量59.06%显著优于0/1标量50.42%。这里的逻辑是由于在早期训练阶段事实性成功相对稀疏0/1激励无法在多种错误路径之间提供足够的对比。相比之下−1/0情景将事实准确性设为默认期望从而提供了稳健的纠正梯度。最终看结果如何看两点一个是幻觉缓解表现上MARCH-STEM/MARCH-General 将基础模型Llama3.1-8B-Instruct平均准确率分别提升19.73%/20.03%Facts Grounding 事实性得分达85.23%/80.12%。另一个是与现有其他方案的叠加收益。包括RLHF、few-shot提示和CoT推理。当应用于Llama3.1-8B-Instruct基准模型时与其他方法结合有提升例如将与CoT推理结合后STEM任务的平均准确率从50.93%提升至59.13%General任务的平均准确率从51.00%提升至57.80%。类似地当与few-shot10-Shots配置结合时也观察到显著改进在STEM任务上达到平均61.27%的准确率。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章

前端开发 2026/4/8 9:57:13

保姆级教程：用SP_Flash_Tool_v5.1920给MTK626设备刷固件，附驱动安装与USB连接避坑指南

保姆级MTK626设备刷机全流程：从驱动安装到成功烧录的避坑指南手里有一台MTK626设备需要刷机，但面对陌生的SP Flash Tool和复杂的驱动安装一头雾水？别担心，这篇教程将手把手带你完成整个流程。不同于网上零散的步骤说明&#xff0…

Image-to-Video应用场景：从个人创意到商业内容的视频生成方案 1. 静态图片变动态视频的神奇魔法想象一下，你手机里那些静止的照片突然活了过来——海浪开始翻滚，花朵缓缓绽放，照片中的人物对你眨眼微笑。这就是Image-to-Video技…

张开发

前端开发 2026/4/8 9:40:52

深入探索Selenium DevTools：解锁浏览器自动化新境界

1. 为什么你需要掌握Selenium DevTools？ 如果你做过浏览器自动化测试，肯定遇到过这样的场景：用传统Selenium API死活获取不到动态加载的数据，或者需要模拟复杂网络环境时束手无策。我刚开始做爬虫时就经常卡在这些地方&#xff0c…

张开发

RAG 幻觉顽疾怎么破？MARCH 多智能体全攻略（非常硬核），自我检查机制从入门到精通，收藏这一篇就够了！

最新文章

Nucleus Co-Op：突破式本地多人游戏革新工具

如何用3D Slicer实现精准医学图像配准？5个高效技巧分享

nnUNet实战指南：从零构建专属2D图像分割模型

LangGraph 状态机设计清单 State 字段如何做到可序列化可重放可审计

增强型大模型代理

Beyond Compare 5密钥生成器：简单三步解决评估期错误问题

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

保姆级教程：用SP_Flash_Tool_v5.1920给MTK626设备刷固件，附驱动安装与USB连接避坑指南

OpenClaw跨平台控制：Mac指挥Windows运行Qwen3-4B任务

抖音无水印视频批量下载：douyin-downloader 完全指南

FireRedASR-AED-L模型批量处理实战：高效处理海量历史录音档案

保姆级教程：用Python复现北航计算机复试上机题（附完整代码与测试用例）

FastAPI安全响应头配置指南：10个关键安全防护技巧 [特殊字符]️

资源下载解放双手：5分钟掌握跨平台高效获取工具res-downloader

关于win10暂停更新是灰色的问题

CSS如何实现响应式图片兼容_利用object-fit属性配合polyfill补丁

哔哩下载姬DownKyi：三步搞定B站视频下载，免费简单快速上手终极指南

Image-to-Video应用场景：从个人创意到商业内容的视频生成方案

深入探索Selenium DevTools：解锁浏览器自动化新境界