强化学习-驶向航路点

时间:2019-02-12 16:30:54

标签: keras reinforcement-learning q-learning deepdrive

我在玩PC游戏中的自动驾驶汽车。我当时在考虑使用强化学习,并在地图上给汽车一个位置。奖励将取决于距路点的距离,如果汽车撞车,奖励会非常负。

尽管如此,我还是无法真正围绕如何将航路点添加到系统中来。我将汽车的摄像头输入用作模型的输入,并且可以基于其当前位置和航路点来计算奖励……但是我并不总是希望汽车行驶到同一地点。 ..我想给它一个航路点,并使其驶向那里而不会撞到任何东西。

如何将航路点和当前位置纳入状态/模型?

1 个答案:

答案 0 :(得分:2)

防撞

为防止汽车撞车,您需要激励坐席采取措施避免撞车。通过使您的奖励功能结合车道偏离和高g力惩罚等功能,以及达到接近航路点的积极奖励,这是可能的。

状态参数

思考状态的一种方法是-一组参数,可用于选择使奖励最大化(折扣累积)的动作。考虑到没有给定您当前位置和目的地的最佳选择,航路点和当前位置在这方面的信息不是很充分。当前的最佳动作取决于速度,加速度,油门,到车道中心的距离等因素。最好将这些记录为状态参数。

看看environment used by DeepDrive,这是一个用于测试自动驾驶汽车模拟的平台。请注意,在奖励功能和状态参数的选择中,它是如何避免碰撞,最小化目的地距离并最大程度地遵守道路的。