我是机器学习的新手,我正在尝试使用Q-learning解决MountainCar-v0。我现在可以解决问题,但我仍然感到困惑。
根据MountainCar-v0's Wiki,即使汽车已到达目的地,每一步的奖励仍为-1。不变奖励如何帮助代理人学习?如果每一步都给予相同的奖励,那么代理人如何判断这是一个好的举动还是一个不好的举动?
提前致谢!
答案 0 :(得分:2)
目标是尽快让汽车到达目的地。如果代理人有快速运行,即使奖励仍为负数,它仍然高于代理人在相对较慢的运行中获得的较低奖励。这种差异足以让代理人学习。此环境的奖励系统鼓励代理人尽快到达目标目的地,因为它只有在达到终端状态后才会停止接收负面奖励。