keras - 强化学习-驶向航路点

时间：2019-02-12 16:30:54

标签： keras reinforcement-learning q-learning deepdrive

我在玩PC游戏中的自动驾驶汽车。我当时在考虑使用强化学习，并在地图上给汽车一个位置。奖励将取决于距路点的距离，如果汽车撞车，奖励会非常负。

尽管如此，我还是无法真正围绕如何将航路点添加到系统中来。我将汽车的摄像头输入用作模型的输入，并且可以基于其当前位置和航路点来计算奖励……但是我并不总是希望汽车行驶到同一地点。 ..我想给它一个航路点，并使其驶向那里而不会撞到任何东西。

如何将航路点和当前位置纳入状态/模型？

答案 0 :(得分：2)

防撞

为防止汽车撞车，您需要激励坐席采取措施避免撞车。通过使您的奖励功能结合车道偏离和高g力惩罚等功能，以及达到接近航路点的积极奖励，这是可能的。

状态参数

思考状态的一种方法是-一组参数，可用于选择使奖励最大化（折扣累积）的动作。考虑到没有给定您当前位置和目的地的最佳选择，航路点和当前位置在这方面的信息不是很充分。当前的最佳动作取决于速度，加速度，油门，到车道中心的距离等因素。最好将这些记录为状态参数。

看看environment used by DeepDrive，这是一个用于测试自动驾驶汽车模拟的平台。请注意，在奖励功能和状态参数的选择中，它是如何避免碰撞，最小化目的地距离并最大程度地遵守道路的。