强化学习代理在连续动作空间中输出单个值

时间:2018-05-18 20:42:42

标签: machine-learning reinforcement-learning

我正在尝试让一个PPO代理掌握一个简单的环境,包括必须平衡一个球,它可以施加扭矩。该代理只有一个连续动作,即:它施加到条的一个末端的力(范围从-1到1)。我观察到两种失败模式:

  • 首先,有时候,尽管我付出了努力,但代理商仍然存在分歧。比率值通过屋顶,在分析时,网络中的所有权重都是NaN。

  • 其次,更令人烦恼的是可以在图像,最后一列,第一行see graphs上观察到的情况,其中描述了动作值。基本上,代理在整个剧集中只输出这个单一值。我不明白为什么。

我试图通过在图层之间使用tanh来防止它,但是徒劳无功。有人可以帮忙吗?关于为什么代理人会完全专注于单一价值的任何提示?

非常感谢!

0 个答案:

没有答案