强化学习中的动作变化限制

时间:2019-03-10 14:09:00

标签: reinforcement-learning

我想使用DDPG 在虚拟环境中建造自主舰

但是,问题是操作的动作空间为(-180',+180'),DDPG可以选择(t-1)的-180'和(t + 1),这在现实世界中是不可能的。 (基本上,您不能快速旋转方向盘。)


我认为可能的解决方案是这个。

  1. 设置最大转向速度(例如,每步10')

  2. 如果采取的动作超出了(current_steeringWheel_angle-10',current_steeringWheel_angle + 10')的可用动作范围,请将采取的动作更改为可用动作范围内的最终值

  3. 在虚拟环境中采取已更改的操作。


  4. (第一个选项)使用更改后的操作更新DDPG。
    (第二个选项)使用最初执行的操作更新DDPG。