应用错误收集

是否有针对连续状态和动作MDP的政策上强化学习方法？

时间：2019-08-14 14:59:31

标签： reinforcement-learning

我想将RL应用于实时控制问题，它可以等同于连续状态和动作马尔科夫决策过程。由于它是在线操作，因此需要一种基于策略的RL方法（在这种情况下，离线学习是不切实际的）。我在网上搜索了很长时间，但找不到合适的答案。有人可以给我一些建议吗？预先谢谢你。

0 个答案:

没有答案