基于分层强化学习的多时间尺度电压控制主要思想：设置一个两层的神经网络，上层负责根据ADN的...

张开发

• 2026/5/23 5:23:12 • 15 分钟阅读

分享文章

基于分层强化学习的多时间尺度电压控制主要思想设置一个两层的神经网络上层负责根据ADN的状态给出控制信号01用于触发下层动作下层建立一个连续和混合动作空间混合的多头神经网络用于控制PV、WT、OLTC、CB 如果上层输出0则下层只控制PV、WT等连续器件如果上层输出1则激活下层对OLTC、CB的控制电网里的电压控制就像在玩一场永不停歇的平衡游戏。想象一个社区突然涌入大量新能源车充电屋顶光伏发电量又在午后骤降——传统集中式控制这时候就像手忙脚乱的指挥家面对秒级变化的分布式电源和分钟级动作的机械设备很容易顾此失彼。我们团队最近尝试用分层强化学习破局效果有点意思。核心架构是个双层的神经网络见图1。上层网络像个老练的调度员盯着整个配电网的状态节点电压、负载率这些每15分钟做次决策——要不要启动OLTC分接头和电容器组这些大动作。这层的输出就两个选择0或1比开关灯还简单。class UpperController(nn.Module): def __init__(self, obs_dim): super().__init__() self.net nn.Sequential( nn.Linear(obs_dim, 64), nn.ReLU(), nn.Linear(64, 2) # 输出0/1决策 ) def forward(self, state): return torch.argmax(self.net(state), dim1) # 直接取决策这个设计暗藏玄机OLTC这类机械装置每天最多动作20次频繁操作会折寿。通过上层的时间解耦先把动作频率锁死在合理范围内。当上层输出0时下层专注调节光伏逆变器和风机这类响应快的设备一旦上层拍板输出1下层才会唤醒对OLTC和电容器的控制。基于分层强化学习的多时间尺度电压控制主要思想设置一个两层的神经网络上层负责根据ADN的状态给出控制信号01用于触发下层动作下层建立一个连续和混合动作空间混合的多头神经网络用于控制PV、WT、OLTC、CB 如果上层输出0则下层只控制PV、WT等连续器件如果上层输出1则激活下层对OLTC、CB的控制下层的动作空间设计更有意思——要同时处理连续动作光伏的无功输出和离散动作电容器投切。我们在PyTorch里搞了个多头网络class LowerActor(nn.Module): def __init__(self, obs_dim, cont_dim, disc_dim): super().__init__() self.base nn.Sequential( nn.Linear(obs_dim, 128), nn.LayerNorm(128) ) self.cont_head nn.Sequential( nn.Linear(128, 64), nn.Tanh(), nn.Linear(64, cont_dim) ) # 离散动作头 self.disc_head nn.Sequential( nn.Linear(128, 64), nn.GELU(), nn.Linear(64, disc_dim) ) def forward(self, state, upper_signal): x self.base(state) cont_action self.cont_head(x) disc_action torch.sigmoid(self.disc_head(x)) if upper_signal 1 else None return cont_action, disc_action重点看forward里的条件判断只有上层给1的时候才会计算离散动作的概率分布。训练时用了分层经验回放池把不同时间尺度的经验样本分开存储。实测发现这样做比传统单层结构收敛快3倍特别是在应对风光出力突变时电压越限次数减少了68%。有个坑得提下刚开始把上下层网络一起训练结果下层总抢在上层决策前就把问题解决了。后来改用交替训练策略——先冻结上层训练下层20个epoch再解冻整个网络联合优化才算解决这个抢跑问题。这或许说明智能体也懂得偷懒能不动大设备就不动。这种架构的扩展性不错最近在尝试加入第三层来做周级的设备检修决策。不过那就是另一个故事了或许下次可以聊聊如何让AI理解设备累了需要休息这种拟人化逻辑。

更多文章

前端开发 2026/5/23 5:22:25

基于YOLOv8的目标检测跟踪系统：测试图片视频、模型权重、pyqt5界面与部署指南

十七、基于YOLOv8的目标检测跟踪系统 1.提供测试图片和测试视频。 2.含模型训练权重。 3.pyqt5设计的界面，带登录界面，注册界面和运行界面。 4.提供详细的环境部署说明和算法原理介绍。最近在搞一个挺有意思的项目——基于YOLOv8的目标检测跟踪系统。这玩…

张开发

前端开发 2026/5/8 5:52:50

Python中print函数的5大实用技巧与场景解析

1. 基本输出：从Hello World到实战应用 print函数是每个Python初学者接触的第一个函数，那句经典的"Hello World"几乎成了编程入门的仪式感。但你可能不知道，这个看似简单的函数背后藏着不少实用技巧。先来看最基本的用法&#xff1…

当macOS音乐应用不再听话：noTunes如何帮你重获系统控制权【免费下载链接】noTunes A simple macOS application that will prevent iTunes or Apple Music from launching. 项目地址: https://gitcode.com/gh_mirrors/no/noTunes 你是否曾经历过这样的场景&…

张开发

基于分层强化学习的多时间尺度电压控制主要思想：设置一个两层的神经网络，上层负责根据ADN的...

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

基于YOLOv8的目标检测跟踪系统：测试图片视频、模型权重、pyqt5界面与部署指南

Python中print函数的5大实用技巧与场景解析

LaTeX模板-主流SCI期刊模板-IEEE模板-Elsevier模板-Springer模板-Science模板-ACM模板-arXiv模板-MDPI模板

win-acme证书自动续期架构深度解析：从故障排查到高可用部署

Hyperledger Fabric高吞吐量优化技巧：避免交易冲突的7个策略

3步掌握AquaCrop-OSPy：用Python精准预测作物产量与优化灌溉策略

SMT波浪焊接常见缺陷识别、成因与解决对策

FanControl架构解析：构建超越BIOS的智能风扇控制系统性能优化指南

Go-prompt终极指南：从kube-prompt学习交互式命令行开发10个最佳实践

利用快马平台与qclaw快速构建量子算法原型，可视化模拟量子电路运行

3分钟为Windows 11 LTSC安装微软商店：完整指南与一键解决方案

当macOS音乐应用不再听话：noTunes如何帮你重获系统控制权

基于分层强化学习的多时间尺度电压控制 主要思想： 设置一个两层的神经网络，上层负责根据ADN的...

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

基于分层强化学习的多时间尺度电压控制主要思想：设置一个两层的神经网络，上层负责根据ADN的...