是否有针对连续状态和动作MDP的政策上强化学习方法?

时间:2019-08-14 14:59:31

标签: reinforcement-learning

我想将RL应用于实时控制问题,它可以等同于连续状态和动作马尔科夫决策过程。由于它是在线操作,因此需要一种基于策略的RL方法(在这种情况下,离线学习是不切实际的)。我在网上搜索了很长时间,但找不到合适的答案。有人可以给我一些建议吗?预先谢谢你。

0 个答案:

没有答案