OpenAI Gym在外部控制的环境中踩踏

时间:2018-05-19 13:55:06

标签: reinforcement-learning openai-gym

我有一个模拟,每5秒钟一次。我想使用OpenAI及其基线算法在这种环境中进行学习。为此,我想通过编写一些与OpenAI Env API相对应的适配器代码来调整模拟。但是存在一个问题:控制流程由OpenAI设置中的代理定义。但在我的世界里,环境步骤独立于代理人。如果经纪人没有做出足够快或没有足够快的话,世界就会在没有他的情况下继续前进。如何实现触发下一步的逆转?

简而言之:OpenAI Env被代理商所取代。我的环境给我的代理人约2-3秒的时间来决定,然后告诉它什么是新的,再次提供选择行动与否。

举个例子:我的环境与现实世界股票交易市场非常相似。代理有24个机会以特定限价买入/卖出产品以累积该目标时间的特定量,并且在时间步骤24,奖励被给予代理并且时段完成。奖励基于每个项目支付的平均价格与所有市场参与者的平均价格相比较。

在任何特定时刻,24个时段并行交易(24x平行期货交易)。我相信我需要创造24个环境,让我相信A3C将是一个不错的选择。

1 个答案:

答案 0 :(得分:0)

重新阅读问题之后,OpenAI健身房似乎不适合您正在尝试的事情。它专为运行快速实验而设计,如果您正在等待直播事件发生,则无法高效完成。如果您没有历史数据并且只能训练传入的实时数据,那么使用OpenAI健身房是没有意义的。您可以编写自己的代码来表示来自该数据的环境,这比尝试将其转换为另一个框架更容易,尽管OpenAI gym的API确实为您的环境应该如何工作提供了一个很好的模型。