应用错误收集

我正在尝试让一个PPO代理掌握一个简单的环境，包括必须平衡一个球，它可以施加扭矩。该代理只有一个连续动作，即：它施加到条的一个末端的力（范围从-1到1）。我观察到两种失败模式：

首先，有时候，尽管我付出了努力，但代理商仍然存在分歧。比率值通过屋顶，在分析时，网络中的所有权重都是NaN。
其次，更令人烦恼的是可以在图像，最后一列，第一行see graphs上观察到的情况，其中描述了动作值。基本上，代理在整个剧集中只输出这个单一值。我不明白为什么。

我试图通过在图层之间使用tanh来防止它，但是徒劳无功。有人可以帮忙吗？关于为什么代理人会完全专注于单一价值的任何提示？

非常感谢！