标签: reinforcement-learning q-learning
在无尽的亚军游戏之类的环境中,目标只是尽可能长寿,那么您将如何使用正面和/或负面奖励?
代理人在没有死亡的每一步中是否应该获得持续的正面奖励,例如+1,然后为导致其死亡的动作获得巨大的负面奖励?
代理人花费很长时间将否定奖励与导致否定奖励的实际行动联系起来吗?例如,如果特工跳了起来,然后又经过了几个时间步骤,从平台上掉下来或降落在尖峰坑中,那么它不需要在相同场景中重复执行相同的动作几次,以获得对向后退并正确地与因果行为相关联?