Question

我创建了一个自定义的openai体育馆环境，其中包含离散的动作空间和稍微复杂的状态空间。状态空间被定义为元组，因为它结合了一些连续的维度和其他离散的维度：

gzip

我使用keras-rl（特别是DQNAgent）培训了一名代理商，但运气还不错，但是keras-rl的支持不足，文献记载也很少。对于可以处理这种观察空间的RL包有什么建议吗？目前看来，openai基线或稳定基线都无法处理它。

或者，是否可以通过其他方式定义状态空间，以使环境适合这些定义更好的软件包之一？

Answer 1

您可能想尝试rllib的{{1}}软件包，该软件包在伯克利大学的UC中得到了扩展。

它包括许多已实现的算法：

这是易于使用的报价。您只需要添加您的环境，其详细说明如下： https://ray.readthedocs.io/en/latest/rllib-env.html