应用错误收集

PPO对离散操作有用吗？

时间：2018-07-01 14:37:19

标签： reinforcement-learning

从我收集到的信息来看，在连续行动的情况下，PPO似乎比基本的“强化政策”梯度更好。但是，在离散动作空间的（简单）情况下，我没有发现两者之间有任何明显的比较。

仅仅是“免费午餐”，添加替代品会有所帮助吗？或者在这种情况下是否有可能使情况变得糟糕的微妙之处？

0 个答案:

没有答案