MIT深度交通挑战中的奖励功能?

时间:2018-06-22 13:45:27

标签: machine-learning reinforcement-learning reward

我一直在玩MIT DeepTraffic Challenge 另外watching the lecture and reading the slides

对体系结构有了基本了解之后,我想知道环境赋予的奖励功能到底是什么。

  1. 与网格单元的输入(最大驾驶速度)相同吗?
  2. 他们是否在使用奖励剪报?

我还找到了这个JavaScript Codebase,它也并没有真正帮助我理解。

1 个答案:

答案 0 :(得分:1)

奖励是按时间间隔划分的平均速度: [-3,3]。

深度流量环境的实现位于此文件中: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我正在尝试使其可读。这里是在制品: https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;