我正忙着为Pac-Man游戏编写强化学习代理,并参加了伯克利的CS课程的吃豆人项目,特别是reinforcement learning section。
对于近似Q学习代理,使用特征近似。 this code中实现了一个简单的提取器。我很好奇的是,为什么在返回功能之前,它们会缩小10?通过运行不带因子10的解决方案你可以注意到吃豆人的情况明显更糟,但为什么呢?
答案 0 :(得分:0)
经过多次测试后发现,最佳Q值可能会大幅度偏离。事实上,这些特征都可能变得消极,甚至通常会让PacMan吃药。所以他只是站在那里,最终试图逃离鬼魂,但从未试图完成一个关卡。
我推测这种情况发生在他失去训练时,负面奖励通过系统传播,并且因为鬼的潜在数量可能大于1,这对重量有很大影响,导致一切变得非常否定,系统无法从中“恢复”。
我通过调整特征提取器以仅缩放#-of-ghosts-one-step-away
特征来确认这一点,然后PacMan设法获得更好的结果
回想起来,这个问题现在更具算术性,可能更适合另一个堆叠交换。