应用错误收集

政策梯度不适用于奖励

时间：2020-03-17 10:43:03

标签： reinforcement-learning reward policy-gradient-descent

在策略梯度中，奖励函数被视为theta的自变量，如以下公式所示。 enter image description here

但是，我认为奖励依赖于轨迹，轨迹本身依赖于政策，政策本身也依赖于theta。换句话说，我认为奖励= R（P（theta））其中P是策略函数，R是所需的奖励函数，因此应应用链式规则对J（theta）进行梯度处理。
请告诉我我的哪个地方错了。
谢谢

0 个答案:

没有答案