应用错误收集

使用ray的PPO算法处理错误事件

时间：2019-10-14 22:24:35

标签： flow-project

我正在使用ray提供的PPO算法来训练RL代理以稳定流量。在训练过程中，我不断看到ValueError（'观测值超出期望值范围'，Box（500，）screenshot

但是，我不知道脚本的哪一部分导致了此问题，或者根本不是由流量引起的？

1 个答案:

答案 0 :(得分：0)

是的，那是由RLlib升级引起的很小的错误。基本上，我们过去使用的Ray版本并不严格限制观察空间的范围，但是新版本的Ray可以。您可以通过以下方法解决此问题：进入相应的环境，并将观察空间的低值和高值更改为稍宽一些（例如-2到2而不是当前的-1到1）