应用错误收集

OpenAI-Gym中的自定义环境

时间：2019-02-21 06:08:30

标签： development-environment reinforcement-learning openai-gym

我想尝试使用Python进行强化学习。但是我想用自己的国家和奖励创建一个自定义环境。

可能我想在其中使用时间序列数据（虽然不像股票那样）。在给定环境的情况下，我希望我的系统根据时间学习行为。

所以我首先要创建一个自定义环境，有人可以帮我吗？

1 个答案:

答案 0 :(得分：0)

可以在here中找到OPEN-AI健身房环境注册过程。

请查看this示例自定义环境和this堆栈溢出问题以获取更多信息。

可能我想在其中使用时间序列数据（虽然不像股票那样）。在给定环境的情况下，我希望我的系统根据时间学习行为。

如果您希望代理人学习w.r.t.时间，然后在您的状态下将时间步长作为变量包含在内。这样您的代理就能区分出时间步长不同的两个不同状态。