应用错误收集

关于深度强化学习，我有一个更笼统的问题。我总是有点挣扎，通行与不通政策的区别到底是什么。可以肯定地说，偏离策略是在轨迹采样过程中从不同的分布进行采样，而策略则是将实际策略用于轨迹生成。或基于策略的策略无法从旧数据中受益，而基于策略的策略则可以。两者都没有真正回答，确切的区别是什么，而是告诉我输出。

以我的理解，DDPG和PPO都是基于A2C的，并同时训练演员和评论家。虽然通常根据MSE使用下一个时间步长的观察到的奖励（基于MSE来训练评论家）（也许使用多个阶段的注册，但现在忽略了一个注册）和下一个时间步长的网络本身。我在这里看不到政策外DDPG和政策上PPO之间的区别（TD3确实略有不同，但由于其思想是相同的，因此目前已被忽略）。

在两种情况下，演员本身都具有基于评论家所产生的价值的损失函数。 PPO使用一定比例的策略来限制步长，而DDPG使用该策略来预测评论者计算出的值的动作。因此，两种方法（PPO和DDPG）在评论者和演员的损失函数中都使用了两种CURRENT策略。

因此，现在我真正的问题是：DDPG为什么能够从旧数据中受益，或者为什么PPO无法从旧数据中受益。可以说，PPO中政策的比例限制了政策之间的距离，因此需要新的数据。但是，与DDPG相比，A2C在策略上如何无法从旧数据中受益？

我确实理解Q学习与政策学习之间的差异远非政策学习。但是我没有得到那些PG方法之间的区别。它是否仅依赖于DDPG是确定性的事实。 DDPG是否进行任何政策外修正，从而能够从旧数据中获利？

如果有人能让我更加了解这些政策，我会感到非常高兴。

欢呼声

PPO参与者批评目标函数基于一组轨迹，这些轨迹是通过在T个时间步上运行当前策略而获得的。更新策略后，从旧/过时策略生成的轨迹将不再适用。即需要对其进行“按策略”培训。

[为什么？因为PPO使用随机策略（即给定状态的动作的条件概率分布），并且该策略的目标函数基于从概率分布的轨迹中采样，而该概率分布取决于当前策略的概率分布（即您需要使用当前的策略来生成轨迹）...注释＃1：对于使用随机策略（而不仅仅是PPO）的任何策略梯度方法，这都是正确的。]

DDPG / TD3对于每个演员/评论家更新仅需要一个时间步长（通过Bellman方程），可以很容易地将当前确定性策略应用于旧数据元组（s_t，a_t，r_t，s_t + 1）。即经过训练的“非政策”。

[为什么？由于DDPG / TD3使用确定性策略和Silver，David等人。 “确定性策略梯度算法。” 2014年。从马尔可夫决策过程状态转移函数证明了该政策的目标函数是状态轨迹的期望值...但不取决于该政策所诱发的概率分布，毕竟这是确定性的，不是随机的。]

DDPG / TD3为什么不能从旧数据和PPO中受益

1 个答案: