reinforcement-learning - 了解强化学习中的奖励功能（atari breakout） - Thinbug

了解强化学习中的奖励功能（atari breakout）

时间：2021-03-04 14:34:39

标签： reinforcement-learning dqn reward

我正在尝试了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态，并且根据每个动作的奖励将在四帧后收到。我的问题是，如果球被卡住了怎么办，它在那里获得了很多奖励，如何确定获得奖励的相同动作是导致更多奖励的原因？

我正在谈论的案例：

0 个答案:

没有答案