机器学习进阶（16.5）：如何防止过拟合补充篇

张开发

• 2026/4/11 3:13:03 • 15 分钟阅读

分享文章

第 16.5 篇防止过拟合的公式原理——为什么这些方法真的有效在第十六篇里我们已经从直觉上理解了过拟合本质是模型把训练数据学得太细了细到连噪声都当成规律。然后我们介绍了几类常见方法限制模型复杂度正则化剪枝早停增加数据特征选择随机化方法如果只停在直觉层面其实已经够用了。但如果你想真正理解为什么这些方法能减少过拟合那就需要稍微看一点数学结构。你会发现一件很有意思的事这些看起来不同的方法本质上都在控制同一件事模型复杂度。而“复杂度”在数学上往往通过参数大小参数数量函数形状模型自由度来体现。1. 先回忆一下模型在优化什么几乎所有监督学习模型都在做一件事最小化损失函数Loss1n∑i1nL(yi,y^i) Loss \frac{1}{n}\sum_{i1}^{n} L(y_i, \hat{y}_i)Lossn1i1∑nL(yi,y^i)例如回归常用平方误差L1n∑(yi−y^i)2 L \frac{1}{n}\sum (y_i - \hat{y}_i)^2Ln1∑(yi−y^i)2分类常用交叉熵L−1n∑yilog⁡(y^i) L -\frac{1}{n}\sum y_i \log(\hat{y}_i)L−n1∑yilog(y^i)问题在于如果你只最小化训练误差模型可能会越来越复杂直到把训练数据“记住”。这时虽然训练误差很低但泛化能力下降。所以我们需要给优化目标加一点“约束”。2. 正则化给模型一个“别太复杂”的惩罚项最经典的方法就是在损失函数中增加一个复杂度惩罚项Loss原始损失λ⋅正则项 Loss 原始损失 \lambda \cdot 正则项Loss原始损失λ⋅正则项这里的 λ 控制惩罚强度。λ 越大对复杂模型的惩罚越强。λ 越小模型越自由。这就是正则化的核心思想。3. L2 正则化RidgeL2 正则化会惩罚参数过大Loss1n∑(yi−y^i)2λ∑wj2 Loss \frac{1}{n}\sum (y_i - \hat{y}_i)^2 \lambda \sum w_j^2Lossn1∑(yi−y^i)2λ∑wj2这里∑wj2 \sum w_j^2∑wj2表示所有参数平方的和。它的作用是如果某些参数变得非常大Loss 会变大。因此优化过程会倾向于让参数保持较小数值。为什么参数大容易过拟合当某些权重特别大时模型会对某些特征极端敏感。例如线性模型y^w1x1w2x2 \hat{y} w_1 x_1 w_2 x_2y^w1x1w2x2如果w₁ 1000模型对 x₁ 的微小变化都会产生巨大输出变化。这通常意味着模型在贴训练集细节。而不是学习稳定规律。L2 正则化会让权重分布更平滑每个特征贡献适中。不容易过拟合某个局部特征。4. L1 正则化LassoL1 正则化惩罚参数绝对值Loss原始损失λ∑∣wj∣ Loss 原始损失 \lambda \sum |w_j|Loss原始损失λ∑∣wj∣与 L2 不同的是L1 更容易让某些参数变成 0。这意味着模型会自动忽略部分特征。因此 L1 不仅防止过拟合还能降低特征维度。这也是为什么 L1 经常用于特征选择。5. 为什么正则化能减少方差从偏差-方差角度看加入正则化以后模型自由度降低。这意味着模型不再随意调整参数去贴训练数据。结果通常是偏差略微增加方差明显下降总体泛化误差下降。这就是正则化的意义。6. 决策树剪枝的数学直觉决策树的目标通常是最小化节点纯度指标。例如 Gini 指数Gini1−∑pk2 Gini 1 - \sum p_k^2Gini1−∑pk2或信息熵Entropy−∑pklog⁡pk Entropy -\sum p_k \log p_kEntropy−∑pklogpk树越深节点越纯。训练误差越低。但问题是深层节点往往样本很少。例如某个叶子节点只有 2 个样本纯度当然是 100%。但这种纯度并不可靠。它只是记住了训练样本。剪枝的本质是不要允许节点划分得太细。即不要让模型用极少样本去定义规则。这可以看成限制模型自由度。7. 早停的数学意义很多模型通过迭代优化例如梯度下降wt1wt−η∇Loss w_{t1} w_t - \eta \nabla Losswt1wt−η∇Loss在训练初期模型先学习主要规律。随着迭代继续模型开始拟合训练集噪声。训练误差持续下降。但泛化误差可能开始上升。早停的做法是在验证误差最小时停止训练。这相当于限制模型继续增加复杂度。因此早停也可以看作一种隐式正则化。8. 随机森林为什么能减少过拟合随机森林使用 Bagging对数据进行重复采样D1,D2,D3...DB D_1, D_2, D_3 ... D_BD1,D2,D3...DB每个数据集训练一棵树f1(x),f2(x),...,fB(x) f_1(x), f_2(x), ..., f_B(x)f1(x),f2(x),...,fB(x)最后预测y^1B∑fb(x) \hat{y} \frac{1}{B}\sum f_b(x)y^B1∑fb(x)如果每棵树的误差方差为σ2 \sigma^2σ2平均后的方差Var(y^)σ2B Var(\hat{y}) \frac{\sigma^2}{B}Var(y^)Bσ2即树越多方差越低。这也是为什么随机森林比单棵树更稳定。更不容易过拟合。9. GBDT 为什么需要学习率GBDT 每一步更新Fm(x)Fm−1(x)ηhm(x) F_m(x) F_{m-1}(x) \eta h_m(x)Fm(x)Fm−1(x)ηhm(x)η 是学习率。如果 η 太大每棵树修正太多。容易过拟合。如果 η 较小每棵树只做微调。模型变化更平滑。泛化能力更好。因此学习率控制模型拟合速度。也控制复杂度增长速度。10. SVM 正则化项SVM 的目标函数min⁡12∣∣w∣∣2C∑ξi \min \frac{1}{2}||w||^2 C\sum \xi_imin21∣∣w∣∣2C∑ξi第一项∣∣w∣∣2 ||w||^2∣∣w∣∣2控制模型复杂度。使间隔最大。第二项∑ξi \sum \xi_i∑ξi控制分类误差。参数 C 决定更重视误差还是更重视间隔。C 越大模型越努力拟合训练集。更容易过拟合。C 越小模型更强调间隔。泛化更稳。11. 为什么增加数据可以减少过拟合设模型误差EBias2VarianceNoise E Bias^2 Variance NoiseEBias2VarianceNoise方差项通常与样本数量相关Variance∝1n Variance \propto \frac{1}{n}Variance∝n1样本越多模型对单个样本的依赖越小。偶然性被平均掉。因此更多数据通常意味着更稳定的模型。12. 特征选择为什么也能防止过拟合如果特征过多模型可能找到一些偶然相关性。例如特征数量 p 远大于样本数量 n模型可能总能找到一组参数使训练误差很低。但这些关系未必真实存在。减少特征数量相当于减少模型自由度。因此降低方差。减少过拟合。13. 所有方法其实在控制同一件事现在你可以把这些方法统一起来看方法控制的东西L1/L2参数大小剪枝树深早停训练步数随机森林模型方差学习率每步复杂度增长特征选择输入维度更多数据降低方差它们形式不同但本质都是限制模型复杂度。14. 从公式角度理解过拟合如果模型过于复杂训练误差↓ \downarrow↓方差↑ \uparrow↑泛化误差↑ \uparrow↑正则化等方法的作用是适度增加训练误差。降低方差。最终降低测试误差。这也是为什么训练误差最低的模型不一定是最好的模型。15. 这一篇真正想补充的是什么前面正文讲的是直觉理解为什么要防过拟合。这一篇补充的是数学结构为什么这些方法真的有效。当你从公式角度看会发现机器学习里很多看起来不同的技巧其实都在解决同一个问题如何限制模型复杂度使模型更稳定。一旦理解这一点你在面对新算法时也能更快抓住核心。因为你会下意识去找这个方法是如何控制模型复杂度的。而不是只记它的名字。

更多文章

前端开发 2026/4/11 3:12:45

科研告急？无人机小麦倒伏实验，一键搞定！[特殊字符]

各位科研er，是不是还在为小麦倒伏实验发愁？🤔 传统人工调查费时费力，数据精度还不够？论文开题、中期考核、毕业在即，实验进度却卡壳了？别慌，救星来了！🌟我们提…

张开发

前端开发 2026/4/11 3:10:49

equals()/hashcode()/hash表/hashmap/linkedhashmap/和变量在内存中的存储关系之间的联系

首先在讲解三者之间的关系的时候我们会先进行hash表的讲解以问题的方法逐步解答首先讲解一下什么是hash表然后逐步进行讲解 1.hash表 hash表的数据结构： jdk8之前：hash表是由数组链表 jdk8之后：数组链表红黑树哈希表&#xf…

张开发

前端开发 2026/4/11 3:09:54

知识图谱增强的大语言模型推理：从思维链到动态知识融合

1. 大语言模型推理的现状与挑战当你让ChatGPT解一道数学题时，它可能直接给出错误答案，但如果你要求它"一步步思考"，正确率就会显著提升——这就是当前大语言模型推理能力的真实写照。这些模型在文本生成、问答等任务上表现惊艳&am…

张开发

前端开发 2026/4/11 3:08:35

表面拉丝的衡量标准：目数的深入探究

表面拉丝的衡量标准：目数的深入探究本文旨在深入探讨表面拉丝处理中“目数”这一衡量标准的重要性、定义、分类、影响因素及其在不锈钢制品等领域的应用。一、引言随着制造业的快速发展，不锈钢制品因其优异的耐腐蚀性和美观性而受到广泛应用。在不锈钢制品的生产过程中…

张开发

前端开发 2026/4/11 3:07:35

hybrid实验

拓扑分接口SW1SW2SW3配置IP地址池配置DHCP自动获取IPPC1PC2PC3PC4PC5PC6END

张开发

前端开发 2026/4/11 3:07:29

Flutter OH 性能分析-滑动响应时延

本篇文章针对 Flutter OH 应用的滑动场景，进行响应时延的trace分析。请务必先看完这篇指南 Flutter OH 性能分析第一步-梳理线程顺序再继续。准备条件了解并能使用性能分析工具DevEco Studio Profiler了解线程渲染顺序（Flutter OH 性能分析第一步-梳…

张开发

前端开发 2026/4/11 3:06:10

AI代码审查革命性突破（2026奇点大会闭门报告首次公开）：基于LLM+符号推理双轨架构的零误报审查框架

第一章：AI代码审查革命性突破（2026奇点大会闭门报告首次公开）：基于LLM符号推理双轨架构的零误报审查框架 2026奇点智能技术大会(https://ml-summit.org) 传统静态分析工具长期受限于路径爆炸与语义盲区，误报率普遍高…

张开发

前端开发 2026/4/11 3:04:09

2026-04-11 全国各地响应最快的 BT Tracker 服务器(电信版)

数据来源：https://bt.me88.top 序号Tracker 服务器地域网络响应(毫秒)1http://211.75.210.221:6969/announce广东广州电信322http://60.249.37.20:80/announce广东东莞电信333http://211.75.205.189:6969/announce广东深圳电信364udp://132.226.6.145:6969/announc…

张开发

前端开发 2026/4/11 2:56:17

Phi-3-vision模型在嵌入式边缘设备的部署展望：结合STM32开发实践

Phi-3-vision模型在嵌入式边缘设备的部署展望：结合STM32开发实践 1. 边缘视觉计算的机遇与挑战在智能家居、工业检测等场景中，我们常常需要让设备"看得懂"周围环境。传统做法是把摄像头拍到的画面传到云端处理，但这会带来延迟、…

张开发

前端开发 2026/4/11 2:55:28

TCP/IP协议详解：高性能服务器开发的底层基石赴

1. 核心概念在 Antigravity 中，技能系统分为两层： Skills (全局库)：实际的代码、脚本和指南，存储在系统级目录（如 ~/.gemini/antigravity/skills）。它们是“能力”的本体。 Workflows (项目级)&#xff1a…

张开发

前端开发 2026/4/11 2:52:33

解决Photoshop WebP格式兼容性痛点的WebPShop插件深度解析

解决Photoshop WebP格式兼容性痛点的WebPShop插件深度解析【免费下载链接】WebPShop Photoshop plug-in for opening and saving WebP images 项目地址: https://gitcode.com/gh_mirrors/we/WebPShop 在Adobe Photoshop 23.2版本之前，设计师和开发者面临着一…

张开发

前端开发 2026/4/11 2:52:27

雪女-斗罗大陆-造相Z-Turbo技术深潜：计算机组成原理视角下的模型计算优化

雪女-斗罗大陆-造相Z-Turbo技术深潜：计算机组成原理视角下的模型计算优化最近在部署和优化一些AI图像生成模型时，我常常会想，为什么同一个模型，在不同的硬件上跑起来速度能差好几倍？为什么有时候明明用了很强的显卡&…

张开发

机器学习进阶（16.5）：如何防止过拟合补充篇

最新文章

保姆级教程：手把手教你为ROS机器人定制Rviz多目标点导航插件（基于move_base）

【FDTD - 1D、2D、3D自由空间】位于模拟域中心的点源会产生电磁辐射，然后这种辐射在真空中传播附Matlab代码

AI 重塑研发全流程：从 Coding 到 Test，测试开发如何不掉队？

从到的木马免杀之旅（过卡巴）嘲

CentOS 9上从源码到监控：手把手编译安装Zabbix 7.0全栈（含MySQL 8.0、Nginx 1.26、PHP 8.4）

日均调用超百万亿Token：国产大模型爆发下，API中转站成开发者刚需

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

科研告急？无人机小麦倒伏实验，一键搞定！[特殊字符]

equals()/hashcode()/hash表/hashmap/linkedhashmap/和变量在内存中的存储关系之间的联系

知识图谱增强的大语言模型推理：从思维链到动态知识融合

表面拉丝的衡量标准：目数的深入探究

hybrid实验

Flutter OH 性能分析-滑动响应时延

AI代码审查革命性突破（2026奇点大会闭门报告首次公开）：基于LLM+符号推理双轨架构的零误报审查框架

2026-04-11 全国各地响应最快的 BT Tracker 服务器(电信版)

Phi-3-vision模型在嵌入式边缘设备的部署展望：结合STM32开发实践

TCP/IP协议详解：高性能服务器开发的底层基石赴

解决Photoshop WebP格式兼容性痛点的WebPShop插件深度解析

雪女-斗罗大陆-造相Z-Turbo技术深潜：计算机组成原理视角下的模型计算优化