如何设计用于深度强化学习的连续奖励功能

时间:2019-06-29 10:04:08

标签: deep-learning reinforcement-learning

您能帮我解决这个问题吗?

据我们所知,奖励功能是强化学习的关键组成部分。但是稀疏奖励(例如r∈{+1,-1})无法快速收敛。 因此,我尝试使用连续功能作为我的奖励功能,即软步奖励功能。 以下是原始奖励功能,它来自OpenAI发表的有关 HalfCheetah 的论文。

# original reward function
r = 0 , if x ≤ 0
r = 2 * x^2, if 0 < x ≤ 0.5
r = 1 - 2(x - 1)^2, if 0.5 < x ≤ 1
r = 1, if x > 1 

ps.s。 ^表示力量

当代理执行的操作非常糟糕时,我可能会给予否定的奖励,因此我上述软步功能更改为:

# modified reward function
r = -1, when x ≤ -0.1
r = 0,  when -0.1 ≤ x ≤ 0.1
r = 2 * x^2, when 0.1 < x ≤ 0.5
r = 1 - 2(x - 1)^2, when 0.5 < x ≤ 1
r = 1, when x > 1 

但是,实际上,上述修改后的奖励函数的性能不是很好,导致下一步的操作几乎保持不变。听起来很糟糕。 另一方面,原始的奖励功能似乎没有 修改后的一个。

你能告诉我为什么修改后的奖励函数的性能更差吗?

如果我想对代理人施加负面惩罚,我该如何设计有效的奖励?

0 个答案:

没有答案