应用错误收集

强化学习中的动作变化限制

时间：2019-03-10 14:09:00

标签： reinforcement-learning

我想使用DDPG 在虚拟环境中建造自主舰。

但是，问题是操作的动作空间为（-180'，+180'），DDPG可以选择（t-1）的-180'和（t + 1），这在现实世界中是不可能的。（基本上，您不能快速旋转方向盘。）

我认为可能的解决方案是这个。

设置最大转向速度（例如，每步10'）
如果采取的动作超出了（current_steeringWheel_angle-10'，current_steeringWheel_angle + 10'）的可用动作范围，请将采取的动作更改为可用动作范围内的最终值
在虚拟环境中采取已更改的操作。
（第一个选项）使用更改后的操作更新DDPG。
（第二个选项）使用最初执行的操作更新DDPG。

1 个答案:

答案 0 :(得分：0)

我想我找到了解决方法。

第一参考：

（src：https://stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025?newreg=09ef385b87a54f27b5011f983dbf0270）

第二参考（基本上，与上面的内容差不多。）：

https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero