AI开始重写自己的算法:谷歌DeepMind让大模型击败了博弈论专家

张开发
2026/4/6 17:47:36 15 分钟阅读

分享文章

AI开始重写自己的算法:谷歌DeepMind让大模型击败了博弈论专家
文章目录前言博弈论里的华山论剑AlphaEvolve让AI自己炼丹1. VAD-CFR会看脸色的遗憾计算2. SHOR-PSRO自动调节的养蛊场为什么这事意义重大博弈论专家怎么看下一步是什么前言想象一下这个场景你正在打德州扑克手里捏着两张底牌对面坐着一个数学系毕业的博弈论专家。他脑子里装着几十年来人类积累的所有概率计算、心理博弈和均衡策略。但现在他的对手不是人而是一个由AI自己想出来的算法——这个算法不是人类程序员写的而是大模型在看了几十万行代码后自己进化出来的。结果怎么样这个AI算法在11个游戏中的10个里把人类专家设计的顶级算法按在地上摩擦。这不是科幻小说这是Google DeepMind在2026年初刚发布的研究成果。他们搞了个叫AlphaEvolve的系统让Gemini 2.5 Pro这个顶尖大模型去重写博弈论里的经典算法结果发现AI不仅学会了人类教的东西还发现了人类几十年都没想出来的新套路。博弈论里的华山论剑先给不太熟悉这块的朋友们补补课。在AI研究里博弈论可不是简单的下棋打牌。它研究的是在多个人或智能体互相竞争、信息不完全的情况下怎么做出最优决策。这在自动驾驶、金融交易、网络安全甚至军事战略里都有广泛应用。比如德州扑克你看不到对手的牌只能根据下注行为推测。这种不完美信息博弈比围棋难多了——围棋是明牌大家都能看到棋盘扑克是暗牌你得靠猜。几十年来人类专家发明了两个大杀器来处理这类问题第一个是CFR反事实遗憾最小化。你可以把它理解为事后诸葛亮学习法。每打完一局算法会回头想想刚才如果换个动作是不是能赚更多然后把这种后悔值积累起来慢慢调整策略。变体包括CFR、DCFR这些都是人工一点点调出来的。第二个是PSRO策略空间响应预言机。这招更像养蛊——先养一堆不同的策略让它们互相打架最后选出最能打的那个组合。这两个算法家族里的各种变体比如PCFR、DPCFR、AlphaRank这些都是人类研究者靠数学直觉和反复试错花了十几年才打磨出来的。每个参数背后都有一堆论文支撑。DeepMind说“行让AI自己试试。”AlphaEvolve让AI自己炼丹AlphaEvolve不是个简单的代码生成工具。它的核心逻辑是进化式代码生成。系统给Gemini 2.5 Pro一个基础框架然后让它去变异、改写核心逻辑。改完后的代码拿去跑游戏跑出来的结果好的就保留不好的就淘汰然后在此基础上继续变异。就像一个不断进化的生物种群。关键是Gemini不只是调参数它改的是算法的核心逻辑——比如怎么计算遗憾值、怎么做加权平均、什么时候该探索什么时候该 exploitation。经过几千代的进化AlphaEvolve在两个领域都发现了新算法1. VAD-CFR会看脸色的遗憾计算第一个发现叫VAD-CFRVolatility-Adaptive Discounted CFR波动率自适应折扣CFR。传统CFR算法有个毛病它对历史数据是一视同仁的。但VAD-CFR搞了个很骚的操作——它会观察最近局势的波动率。如果发现最近几轮局势变化很大比如对手突然变得很激进它就加快遗忘旧数据的速度如果局势稳定就多记住一些历史。这听起来很符合直觉对吧但人类专家之前设计的DCFR、PCFR都没这么干。它们用的是固定的折扣因子就像不管天气怎么样都穿一样厚的衣服。更绝的是VAD-CFR还搞了个硬热身机制前500轮完全不平均策略纯积累遗憾值500轮后才突然开始平均。这个500的数字不是人给的是AI自己进化出来的——关键是测试 horizon 正好是1000轮AI好像自己悟到了一半的时候开始正合适。还有一个不对称增强对正的即时遗憾值乘以1.1的系数。就这么个小小的不对称让算法对好事更敏感。结果如何在11个标准测试游戏中VAD-CFR在10个游戏里达到了SOTAstate-of-the-art水平包括德州扑克的变种Kuhn Poker、Leduc Poker以及Liar’s Dice这些经典不完美信息博弈。唯一输的那场是4人Kuhn Poker——但这也正常人多的博弈本来就更复杂。2. SHOR-PSRO自动调节的养蛊场第二个发现是SHOR-PSROSmoothed Hybrid Optimistic Regret PSRO针对的是PSRO这个养蛊框架。传统PSRO最大的问题是怎么选meta-strategy——即从现有的策略池子里怎么组合出一个混合策略。人类设计了好几种方法均匀随机选Uniform、纳什均衡Nash、AlphaRank等等但都得手动调。SHOR-PSRO搞了个混合求解器它把乐观遗憾匹配ORM和平滑最佳纯策略Softmax线性混合在一起。用个参数λ控制两者的比例。但最妙的是动态退火在训练初期λ设置得偏向Softmax0.3这时候算法更贪婪专注于 exploitation随着训练进行λ慢慢降到0.05转向ORM更注重探索均衡。同时多样性奖励diversity bonus也从0.05降到0.001温度参数从0.5降到0.01。这相当于AI自己学会了什么时候该探索、什么时候该收割——而且整个过程是自动的不需要人类去设定第几步该转策略。测试结果显示SHOR-PSRO在11个游戏中的8个里击败了人类设计的基准算法。为什么这事意义重大可能有些朋友会说“这不就是自动调参吗有什么了不起的”不这完全是两码事。首先AI发现的是人类没想到的结构。比如VAD-CFR里的那个500轮硬热身或者是SHOR-PSRO里训练时和评估时用完全不同的参数配置训练时λ0.3→0.05评估时固定λ0.01这些都不是人类专家常规会尝试的设计。MIT Technology Review的报道里有个评价很到位AlphaEvolve找到的许多解决方案非直观到设计出来non-intuitive by design。其次这是AI第一次真正进入算法设计的核心领地。以前我们说AI能写代码指的是它能把人类的需求翻译成代码实现。但AlphaEvolve不一样——它是在发现新的算法范式是在做研究级的工作。DeepMind自己也很兴奋。他们在论文里说这是在递归自我改进的语境下首次同时实现了算法本身和生成算法的LLM的改进。也就是说不仅算法变强了生成算法的那个AI也变强了。最后这事儿已经在产生实际价值了。DeepMind用AlphaEvolve去优化Google数据中心的调度算法结果回收了全球0.7%的计算资源。按Google的规模这相当于省下了无数台服务器。它还加速了Gemini本身的训练——通过优化一个特定的矩阵运算把训练时间缩短了1%。AI在帮Google造更好的AI这闭环了。博弈论专家怎么看这事儿对博弈论学术界冲击挺大的。传统上算法设计是个需要深厚数学直觉的工作。你得懂凸优化、懂不动点定理、懂泛函分析才能设计出收敛快又稳定的算法。但现在AI在11个测试用例里的10个都击败了人类。而且它不是靠蛮力而是靠发现人类漏掉的结构。有个细节很有意思VAD-CFR里的波动率自适应机制其实和金融领域的波动率聚类volatility clustering很像。但做CFR的数学家和做量化交易的金融工程师之前可能没想到把这俩结合起来。AI想到了因为它只是纯粹地从效果出发没有学科壁垒。当然也有局限。AlphaEvolve只能解决能被自动评估的问题——就是你说好不好得有个客观标准比如exploitability数值。如果得靠人眼看美不美、有没有创意它就不行了。而且就像Warwick大学的数学家Jakob Moosbauer说的AlphaEvolve虽然能找到好算法但给不出理论解释——它不知道为什么这个算法好只是实验证明它好。这对数学家来说有点难受因为他们既想要结果也想要理解。下一步是什么DeepMind这篇论文arXiv:2602.16928其实释放了一个很强的信号大模型进化算法可能是未来算法发现的主流范式。以前我们用神经网络下棋、打游戏是在策略层面超越人类。现在AlphaEvolve是在元策略层面超越人类——它设计的学习算法比人类设计的更好。这让我想起2017年AlphaZero自己悟出国际象棋开局的场景。当时人类几百年来积累的开局理论被AI几天就重新发现了而且发现很多传统认知是错的。现在历史在算法设计领域重演。只不过这次AI不仅重新发现了还发明了一些人类从来没见过的新机制。也许再过几年我们大学算法课上讲的CFR就不再是Tammelin 2014年提出的CFR而是VAD-CFRPSRO的meta-solver标准做法也会变成SHOR-PSRO的混合退火策略。毕竟在11局比赛里赢10局这不是运气这是实力。朋友们下次当你听到AI只会模仿人类的时候记得今天这篇文章。有些东西AI已经开始教人类怎么做了。目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。

更多文章