标签: reinforcement-learning
从我收集到的信息来看,在连续行动的情况下,PPO似乎比基本的“强化政策”梯度更好。 但是,在离散动作空间的(简单)情况下,我没有发现两者之间有任何明显的比较。
仅仅是“免费午餐”,添加替代品会有所帮助吗?或者在这种情况下是否有可能使情况变得糟糕的微妙之处?