Question

您能帮我解决这个问题吗？

据我们所知，奖励功能是强化学习的关键组成部分。但是稀疏奖励（例如r∈{+1，-1}）无法快速收敛。因此，我尝试使用连续功能作为我的奖励功能，即软步奖励功能。以下是原始奖励功能，它来自OpenAI发表的有关 HalfCheetah 的论文。

# original reward function
r = 0 , if x ≤ 0
r = 2 * x^2, if 0 < x ≤ 0.5
r = 1 - 2(x - 1)^2, if 0.5 < x ≤ 1
r = 1, if x > 1

ps.s。 ^表示力量

当代理执行的操作非常糟糕时，我可能会给予否定的奖励，因此我将上述软步功能更改为：

# modified reward function
r = -1, when x ≤ -0.1
r = 0,  when -0.1 ≤ x ≤ 0.1
r = 2 * x^2, when 0.1 < x ≤ 0.5
r = 1 - 2(x - 1)^2, when 0.5 < x ≤ 1
r = 1, when x > 1

但是，实际上，上述修改后的奖励函数的性能不是很好，导致下一步的操作几乎保持不变。听起来很糟糕。另一方面，原始的奖励功能似乎没有修改后的一个。

你能告诉我为什么修改后的奖励函数的性能更差吗？

如果我想对代理人施加负面惩罚，我该如何设计有效的奖励？

如何设计用于深度强化学习的连续奖励功能

0 个答案: