使用ray的PPO算法处理错误事件

时间:2019-10-14 22:24:35

标签: flow-project

我正在使用ray提供的PPO算法来训练RL代理以稳定流量。在训练过程中,我不断看到ValueError('观测值超出期望值范围',Box(500,)screenshot

但是,我不知道脚本的哪一部分导致了此问题,或者根本不是由流量引起的?

1 个答案:

答案 0 :(得分:0)

是的,那是由RLlib升级引起的很小的错误。基本上,我们过去使用的Ray版本并不严格限制观察空间的范围,但是新版本的Ray可以。您可以通过以下方法解决此问题:进入相应的环境,并将观察空间的低值和高值更改为稍宽一些(例如-2到2而不是当前的-1到1)