Agent学习--LLM--推理熵

张开发
2026/4/11 1:01:49 15 分钟阅读

分享文章

Agent学习--LLM--推理熵
平时我们用大模型的时候可以看到虽然最后出来的是一大段话但是实际上一般都是采用的是流式输出即一个字一个字的输出出来而这每个字的生成本质是agent在不断地推理下一个字或者词是什么当它遇到关键决策点时比如在一个需要推理的题目中决定下一步是用“因为”、“所以”还是“假设”就会产生犹豫此时的agent就像人类一样对不确定的事情会纠结或者迷茫而agent在思考或决策时的“不确定性”或“迷茫”程度就是推理熵。根据AI在决策时的“纠结”程度主要可以分为以下几种情况高熵Agent状态面对多种可能需要权衡和选择处于探索和犹豫的状态行为模式会生成高熵Token如逻辑转折词“however”、“therefore”或引入新条件的“assume”、“suppose”等对训练的影响占推理步骤的少数约20%但决定了推理方向和最终结果示例在解一道复杂的数学题时AI在决定下一步是“用方程求解”还是“画图分析”时熵值会升高低熵Agent状态答案明确无需多想像在走一条笔直的大路处于确定和自信的状态行为模式会生成低熵Token如句子结尾、常见词组等确定性高的内容对训练的影响占推理步骤的多数约80%用于串联和补充细节并非推理成败的关键。示例在写出“1 1 ”之后预测下一个token是“2”时熵值极低熵的异常稳定不过很多时候人们会把推理熵的变化当做监控agent推理稳定性的指标会觉得推理熵的变化稳定的话agent的处理没问题。但是这里暗含了一个隐形的问题如果agent只是因为训练了同样的问题多次熟练度提高了面对同类的问题已经自发形成了一套成熟、处理结果极好的处理方法论此时尽管面对不同的输入也会有不同的输出。但是如果查看其训练时的推理轨迹训练时agent会被正则化梯度和任务梯度所驱动前者负责加入噪声使得输入数据样本多样化后者则负责驱动其更好地完成任务会发现这些熵稳定的背后多数都是任务梯度很小的情况这其实就是agent对同类问题熟练度很高的表现此时agent的推理轨迹就变成了正则化梯度导向”随机性“很强本末倒置了。当然相关的解决方法也已经有了最近有一篇论文地址讲的就是通过减少降低任务梯度的奖励prompt的方式以这种简单的方法很好地解决了这个问题使得任务梯度维持在了一个较高的水平。核采样语言模型在生成每一步的内容时会给出一个概率分布所有可能token的概率上文提到的降低的方式就是选择核采样top-p而不是top-k这两者的区别是后者只是按照概率从高到低排序拿前面的前者则是按照候选词即推理时可能用作答案的词语的累计概率总和排序这便是重点。单纯的按照概率分布来拿会因为分布而导致一些问题分布平坦时可能丢掉合理词分布极陡时可能保留一堆尾部垃圾词而按照累积的顺序拿排序的变化本身便是每次候选词的变化体现从而能够很好地判断出哪些才是模型真正想要的

更多文章