我创建了一个自定义的openai体育馆环境,其中包含离散的动作空间和稍微复杂的状态空间。状态空间被定义为元组,因为它结合了一些连续的维度和其他离散的维度:
gzip
我使用keras-rl(特别是DQNAgent)培训了一名代理商,但运气还不错,但是keras-rl的支持不足,文献记载也很少。对于可以处理这种观察空间的RL包有什么建议吗?目前看来,openai基线或稳定基线都无法处理它。
或者,是否可以通过其他方式定义状态空间,以使环境适合这些定义更好的软件包之一?
答案 0 :(得分:1)
您可能想尝试rllib
的{{1}}软件包,该软件包在伯克利大学的UC中得到了扩展。
https://rise.cs.berkeley.edu/projects/ray/
它包括许多已实现的算法:
这是易于使用的报价。您只需要添加您的环境,其详细说明如下: https://ray.readthedocs.io/en/latest/rllib-env.html