伯克利吃豆人项目:功能分为10

时间:2013-05-04 11:43:47

标签: reinforcement-learning

我正忙着为Pac-Man游戏编写强化学习代理,并参加了伯克利的CS课程的吃豆人项目,特别是reinforcement learning section

对于近似Q学习代理,使用特征近似。 this code中实现了一个简单的提取器。我很好奇的是,为什么在返回功能之前,它们会缩小10?通过运行不带因子10的解决方案你可以注意到吃豆人的情况明显更糟,但为什么呢?

1 个答案:

答案 0 :(得分:0)

经过多次测试后发现,最佳Q值可能会大幅度偏离。事实上,这些特征都可能变得消极,甚至通常会让PacMan吃药。所以他只是站在那里,最终试图逃离鬼魂,但从未试图完成一个关卡。

我推测这种情况发生在他失去训练时,负面奖励通过系统传播,并且因为鬼的潜在数量可能大于1,这对重量有很大影响,导致一切变得非常否定,系统无法从中“恢复”。

我通过调整特征提取器以仅缩放#-of-ghosts-one-step-away特征来确认这一点,然后PacMan设法获得更好的结果

回想起来,这个问题现在更具算术性,可能更适合另一个堆叠交换。