我正在尝试让一个PPO代理掌握一个简单的环境,包括必须平衡一个球,它可以施加扭矩。该代理只有一个连续动作,即:它施加到条的一个末端的力(范围从-1到1)。我观察到两种失败模式:
首先,有时候,尽管我付出了努力,但代理商仍然存在分歧。比率值通过屋顶,在分析时,网络中的所有权重都是NaN。
其次,更令人烦恼的是可以在图像,最后一列,第一行see graphs上观察到的情况,其中描述了动作值。基本上,代理在整个剧集中只输出这个单一值。我不明白为什么。
我试图通过在图层之间使用tanh来防止它,但是徒劳无功。有人可以帮忙吗?关于为什么代理人会完全专注于单一价值的任何提示?
非常感谢!