深度强化学习用于延迟学习环境的配置

时间:2020-01-23 09:23:51

标签: deep-learning reinforcement-learning

模型为每个时间步选择已配置环境中的动作。这将更改环境状态。 (状态t)->(状态t + 1)

第二个模型可以在下一个时间步更改环境的配置。 这不会改变状态,但会影响整体奖励。 (状态t)->(配置t + 1)

(状态,配置)->奖励

配置是一种非线性函数,为环境中发生的每个事件选择一个连续结果。因此,无法将两个模型与分类配置输出结合使用。

由于两个模型相互依赖,我该如何训练此配置? 是否有可能将其他两个模型整合为一个模型? 是否已经探讨过类似的问题?

我当前的想法: 从stable_baselines用PPO2实现两个模型。 将model2冻结x个历元,以允许model1改善并防止振荡。 两种型号将获得相同的奖励。 交替冻结(冻结2,火车1;冻结1,火车2)是否有意义?

0 个答案:

没有答案