PPO对离散操作有用吗?

时间:2018-07-01 14:37:19

标签: reinforcement-learning

从我收集到的信息来看,在连续行动的情况下,PPO似乎比基本的“强化政策”梯度更好。 但是,在离散动作空间的(简单)情况下,我没有发现两者之间有任何明显的比较。

仅仅是“免费午餐”,添加替代品会有所帮助吗?或者在这种情况下是否有可能使情况变得糟糕的微妙之处?

0 个答案:

没有答案