下篇:三种主流特征学习,总有一款适合你

张开发
2026/4/16 22:08:40 15 分钟阅读

分享文章

下篇:三种主流特征学习,总有一款适合你
上篇我们说到特征学习就是让机器自动从原始数据里“提炼”有用信息省得你天天熬夜搓特征工程。那具体怎么个学法这里给你拆成三大类你听完就能对号入座。第一类无监督特征学习 —— “没人教自己悟”这类方法最狠。它连标签也就是正确答案都不需要纯粹靠数据内部的结构来学特征。最典型的例子自编码器。自编码器长得很对称一个编码器一个解码器。编码器把原始数据压缩成一个低维的向量这就是学到的特征解码器再把这个低维向量恢复成原始数据。训练的时候模型啥标签都没有只有一个目标恢复出来的东西要和原来尽可能一样。你想想如果压缩后的特征啥信息都没保留那肯定恢复不出来。所以模型被迫在压缩过程中把最重要的信息提炼出来。另一个常见例子主成分分析PCA。虽然听起来像个老古董但它其实也算特征学习——它找的那几个主成分就是新特征。什么时候用 你手头有一堆无标签数据比如用户行为日志想先降个维、可視化一下或者给下游任务做准备。而且你不想花钱标数据。第二类监督特征学习 —— “手把手教按需学习”这类方法有标签。也就是说你不仅给数据还告诉模型“这张图是猫”“这段文本是好评”。模型在学习分类或回归的同时顺便把特征也学了。最典型的例子深度神经网络的中间层。你训练一个卷积神经网络CNN去识别猫和狗。最后一层是分类层前面那些隐藏层输出的东西其实就是模型学到的特征。而且有意思的是浅层学到的往往是边缘、颜色这种简单特征深层学到的才是眼睛、耳朵这种复杂特征。监督特征学习的优势学出来的特征直接针对你的任务优化。你想做猫狗识别它就专门学能区分猫狗的特征不会浪费时间学无关的东西。但有个坑你需要大量标注数据。而且学出来的特征换一个任务可能就不太好使了——比如用猫狗识别任务训练出来的特征去做肿瘤检测大概率翻车。第三类自监督特征学习 —— “假装有老师自己给自己出题”这是最近几年大火的方向火到有人说它是“无监督学习的未来”。它的套路很简单把数据的一部分“藏起来”让模型去猜。举几个例子你就懂了BERT把一句话里随机遮住几个词让模型预测被遮住的是什么。模型为了猜对就得学会每个词的上下文特征。SimCLR对比学习的一种同一张图片做两种不同的数据增强比如旋转裁剪让模型学会“这两张是同一个东西的不同视角”从而学到好的视觉特征。图像修复把图片遮住一半让模型补全。模型为了补得真就得理解整张图片的结构。自监督的好处是它不需要人工标签但能学到比纯无监督更丰富的特征。学完之后你再用少量标签数据微调一下效果往往不输全监督。目前大模型GPT、LLaMA这些预训练阶段用的基本上就是自监督学习的变种——预测下一个词。特征学习到底有啥实际作用说了这么多你不会觉得这只是学术界自嗨吧不是的它在现实里到处在用。作用一降维救你命原始数据动不动几千几万维很多模型根本跑不动。特征学习把它压到几十维计算量从天文数字变成喝杯咖啡就能搞定。作用二迁移学习省你时间别人在大规模数据上比如ImageNet的1000万张图用监督或自监督学好的特征你直接拿来用稍微调一调就能解决你自己的小问题。这就是为什么现在搞图像的基本不会从头训练一个ResNet——太傻了直接拿预训练模型当特征提取器就完事。作用三发现你不知道的东西有些时候特征学出来的东西会让你拍大腿。比如用自编码器分析用户行为发现某个隐藏特征其实代表“深夜冲动消费倾向”——你压根没想过这个维度但它对预测转化率特别有用。作用四解决“数据孤岛”问题你手里有几百万条无标签日志想用来做分类但没人力标注。自监督特征学习先帮你把特征学出来然后你只需要标几百条数据微调一下——成本骤降。最后说一句特征学习不是要干掉特征工程。它俩其实是搭档。有些领域知识明确的特征比如“用户的年龄”你该加还是得加。但那些你设计不出来、或者设计出来太费劲的模式交给特征学习去自动挖掘。换句话说把重复劳动交给机器把你的脑力留给真正需要创造力的地方。这样既轻松效果还好。何乐而不为

更多文章