标签: reinforcement-learning
我想将RL应用于实时控制问题,它可以等同于连续状态和动作马尔科夫决策过程。由于它是在线操作,因此需要一种基于策略的RL方法(在这种情况下,离线学习是不切实际的)。我在网上搜索了很长时间,但找不到合适的答案。有人可以给我一些建议吗?预先谢谢你。