政策梯度不适用于奖励

时间:2020-03-17 10:43:03

标签: reinforcement-learning reward policy-gradient-descent

在策略梯度中,奖励函数被视为theta的自变量,如以下公式所示。 enter image description here

但是,我认为奖励依赖于轨迹,轨迹本身依赖于政策,政策本身也依赖于theta。换句话说,我认为奖励= R(P(theta))其中P是策略函数,R是所需的奖励函数,因此应应用链式规则对J(theta)进行梯度处理。
请告诉我我的哪个地方错了。
谢谢

0 个答案:

没有答案