Agent学习--LLM--推理熵

张开发

• 2026/4/11 1:01:49 • 15 分钟阅读

分享文章

平时我们用大模型的时候可以看到虽然最后出来的是一大段话但是实际上一般都是采用的是流式输出即一个字一个字的输出出来而这每个字的生成本质是agent在不断地推理下一个字或者词是什么当它遇到关键决策点时比如在一个需要推理的题目中决定下一步是用“因为”、“所以”还是“假设”就会产生犹豫此时的agent就像人类一样对不确定的事情会纠结或者迷茫而agent在思考或决策时的“不确定性”或“迷茫”程度就是推理熵。根据AI在决策时的“纠结”程度主要可以分为以下几种情况高熵Agent状态面对多种可能需要权衡和选择处于探索和犹豫的状态行为模式会生成高熵Token如逻辑转折词“however”、“therefore”或引入新条件的“assume”、“suppose”等对训练的影响占推理步骤的少数约20%但决定了推理方向和最终结果示例在解一道复杂的数学题时AI在决定下一步是“用方程求解”还是“画图分析”时熵值会升高低熵Agent状态答案明确无需多想像在走一条笔直的大路处于确定和自信的状态行为模式会生成低熵Token如句子结尾、常见词组等确定性高的内容对训练的影响占推理步骤的多数约80%用于串联和补充细节并非推理成败的关键。示例在写出“1 1 ”之后预测下一个token是“2”时熵值极低熵的异常稳定不过很多时候人们会把推理熵的变化当做监控agent推理稳定性的指标会觉得推理熵的变化稳定的话agent的处理没问题。但是这里暗含了一个隐形的问题如果agent只是因为训练了同样的问题多次熟练度提高了面对同类的问题已经自发形成了一套成熟、处理结果极好的处理方法论此时尽管面对不同的输入也会有不同的输出。但是如果查看其训练时的推理轨迹训练时agent会被正则化梯度和任务梯度所驱动前者负责加入噪声使得输入数据样本多样化后者则负责驱动其更好地完成任务会发现这些熵稳定的背后多数都是任务梯度很小的情况这其实就是agent对同类问题熟练度很高的表现此时agent的推理轨迹就变成了正则化梯度导向”随机性“很强本末倒置了。当然相关的解决方法也已经有了最近有一篇论文地址讲的就是通过减少降低任务梯度的奖励prompt的方式以这种简单的方法很好地解决了这个问题使得任务梯度维持在了一个较高的水平。核采样语言模型在生成每一步的内容时会给出一个概率分布所有可能token的概率上文提到的降低的方式就是选择核采样top-p而不是top-k这两者的区别是后者只是按照概率从高到低排序拿前面的前者则是按照候选词即推理时可能用作答案的词语的累计概率总和排序这便是重点。单纯的按照概率分布来拿会因为分布而导致一些问题分布平坦时可能丢掉合理词分布极陡时可能保留一堆尾部垃圾词而按照累积的顺序拿排序的变化本身便是每次候选词的变化体现从而能够很好地判断出哪些才是模型真正想要的

Agent学习--LLM--推理熵

最新文章

极简安卓指南—Termux快速部署Ubuntu(零基础入门)

vMix24 Pro 全版本 26 版本报错尝试读取或写入保护的内存。这通常指示其他内存已经损坏。问题解决思路

Golang怎么RSA解密数据_Golang如何用私钥解密密文数据【进阶】

Porcupine_ES西班牙语唤醒引擎在Arduino Nano 33 BLE上的嵌入式实现

若依框架+MQTT实战：5步搞定物联网设备数据实时入库（附避坑指南）

adb命令——在电脑和手机端互传文件

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

R语言条形图实战：从barplot到ggplot2的完整指南（附生物信息学案例）

机器学习工程师的职业陷阱：如何避免

嵌入式轻量JSON库：零堆分配、事件驱动解析器

高光谱成像基础（十二）光谱重建（Spectral Reconstruction）试

GLM-4.1V-9B-Base开源镜像部署教程：GPU算力高效利用实战指南

DPABI实战：从fMRI数据预处理到脑区信号提取的避坑指南

从拆分到融合：拆解联邦学习与拆分学习的协同进化之路

新手挖 SRC 漏洞避坑指南：入门路线 + 实操步骤 + 常见漏洞思路

Arduino多平台临界区封装库：轻量级中断屏蔽RAII实现

Blazor Server项目CSS隔离失效？检查_Host.cshtml这个关键文件

Vue3项目实战：用百度地图API打造一个带自定义图标和轨迹线的可视化大屏

JavaScript中CSSContain属性减少DOM局部重排范围