从熵到交叉熵损失函数：一文掌握机器学习中的核心概念与应用

张开发

• 2026/5/21 11:40:30 • 15 分钟阅读

分享文章

1. 熵与信息熵从物理概念到信息度量第一次听到熵这个字时我正盯着咖啡杯里逐渐扩散的奶沫发呆。就像奶沫从有序的漩涡变成无序的混合状态熵正是描述这种混乱程度的物理量。但在机器学习领域我们需要关注的是它的近亲——信息熵。信息熵的发明者香农真是个天才。1948年这位贝尔实验室的科学家在论文中提出信息的不确定性可以用数学公式量化。想象你收到两条消息明天太阳会升起和明天会下钻石雨前者几乎不带来任何信息量因为确定性太高后者却让你震惊不已因为概率极低。这就是信息熵的核心思想——事件发生的概率越低其包含的信息量越大。具体到公式信息熵H(X) -ΣP(x)logP(x)。我刚开始学的时候总记不住这个负号后来发现它其实很合理因为概率P(x)在0到1之间取对数后是负值负负得正才能保证熵值非负。举个实际例子假设有个天气预报系统晴天概率70%雨天30%信息熵 -(0.7log0.7 0.3log0.3) ≈ 0.88而当天气预测完全确定时比如100%晴天熵值就降为0。这就解释了为什么机器学习模型要追求降低熵——我们希望通过数据减少不确定性。2. KL散度衡量概率分布的距离在真实项目中我经常需要比较两个概率分布的差异。比如用户点击预测模型输出的分布和真实数据分布到底差多远这时候就需要KL散度Kullback-Leibler Divergence出场了。KL散度的公式看起来有点吓人DKL(P||Q) ΣP(x)log(P(x)/Q(x))。但拆解后会发现很直观它计算的是用Q分布近似P分布时额外需要的信息量。记得我第一次用KL散度优化推荐系统时发现当预测分布Q完全匹配真实分布P时KL值确实降到了0。不过这里有三个坑需要注意不对称性DKL(P||Q) ≠ DKL(Q||P)就像从北京到上海和上海到北京的距离相同但分布距离却不同非负性KL值永远≥0等于0时说明两个分布完全相同敏感性当Q(x)为0而P(x)不为0时KL值会爆表这就是为什么实际使用时需要平滑处理举个例子假设真实分布P[0.8,0.2]模型A输出Q1[0.7,0.3]模型B输出Q2[0.9,0.1]DKL(P||Q1) ≈ 0.02DKL(P||Q2) ≈ 0.01 这说明模型B更接近真实分布。3. 交叉熵KL散度的实用表亲在实际编程中我发现KL散度计算有点麻烦因为需要同时知道P和Q。这时候交叉熵Cross-Entropy就派上用场了。从公式上看交叉熵H(P,Q) H(P) DKL(P||Q)可以理解为真实分布的熵近似误差。最神奇的是当我们固定P分布时最小化交叉熵等价于最小化KL散度这就是为什么深度学习框架都直接提供交叉熵损失函数。在PyTorch里只需要两行代码criterion nn.CrossEntropyLoss() loss criterion(predictions, labels)我做过一个对比实验用MNIST数据集训练CNN使用MSE损失测试准确率85%改用交叉熵损失准确率直接跳到97%交叉熵的优势在于梯度友好误差大时梯度大误差小时梯度小利于快速收敛概率解释天然适配分类任务的概率输出数值稳定配合LogSoftmax使用可避免数值溢出4. Softmax与交叉熵的黄金组合说到分类任务就不得不提Softmax这个神器。记得我第一次实现手写数字识别时发现模型输出是一些乱七八糟的数值根本不像概率。直到加上Softmax层所有输出突然变成了漂亮的概率分布Softmax的公式很优雅σ(z)_i e^zi / Σe^zj。它的聪明之处在于指数放大拉开不同类别间的差距归一化确保所有输出之和为1可导性便于反向传播在PyTorch中通常会把Softmax和交叉熵合并计算# 错误做法数值不稳定 outputs torch.softmax(logits, dim1) loss -torch.log(outputs[range(batch_size), labels]).mean() # 正确做法使用内置函数 loss F.cross_entropy(logits, labels) # 已经包含Softmax这里有个工程经验当类别很多时比如语言模型的几万个词直接算Softmax会非常耗内存。这时候可以用Sampled Softmax或者Hierarchical Softmax等优化方法。5. 实战中的调参技巧在真实业务场景中应用这些理论时我踩过不少坑。这里分享三个实用技巧批量计算技巧交叉熵默认会对batch取平均。如果你的样本重要性不同可以这样加权weights torch.tensor([1.0, 2.0]) # 第二类样本权重加倍 criterion nn.CrossEntropyLoss(weightweights)标签平滑技术当标签过于绝对时如one-hot的1和0可以加入平滑因子防止模型过度自信def label_smoothing(labels, classes, epsilon0.1): return (1 - epsilon) * labels epsilon / classes温度系数调节在知识蒸馏等场景中可以通过调节Softmax的温度系数控制输出分布的平滑程度def softmax_with_temperature(logits, temperature): return F.softmax(logits / temperature, dim1)这些概念看似抽象但当你在凌晨三点调试模型时突然理解它们如何协同工作那种顿悟的快感正是机器学习最迷人的地方。每次看到交叉熵损失曲线稳步下降就知道这些数学工具正在帮我们一点点揭开数据背后的真相。

从熵到交叉熵损失函数：一文掌握机器学习中的核心概念与应用

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

会员营销短信接口对接教程：通过API接口实现会员积分提醒与专属营销短信发送

别再为滑模控制的抖振头疼了：手把手教你用幂次趋近率搞定噪声和稳定性

8K视频剪辑与AI训练显存优化实战：如何用RTX 4090榨干24GB显存

Odoo 19 Studio 无代码自动化实战指南

OpenClaw学习助手：千问3.5-9B驱动的智能笔记整理系统

OpenClaw性能优化实战：Qwen3-14b_int4_awq的AWQ量化效果测试

新手必看！Velodyne雷达点云去畸变避坑指南（含Python可视化）

用数字孪生给仓库装上X光眼：3D实时监控+VR培训的落地实操指南

【GitHub项目推荐--PicoClaw：10 美元硬件的“超轻量”AI 智能体】

收藏！小白程序员必看：5大AI Agent框架深度解析，助你轻松入门大模型时代！

搞不定CAN总线匹配电阻？实测告诉你120Ω电阻怎么加、阻值怎么测、位置怎么放才不出错

Win11升级还是全新安装？保姆级决策指南与数据迁移全流程