应用错误收集

MIT深度交通挑战中的奖励功能？

时间：2018-06-22 13:45:27

标签： machine-learning reinforcement-learning reward

我一直在玩MIT DeepTraffic Challenge 另外watching the lecture and reading the slides

对体系结构有了基本了解之后，我想知道环境赋予的奖励功能到底是什么。

与网格单元的输入（最大驾驶速度）相同吗？
他们是否在使用奖励剪报？

我还找到了这个JavaScript Codebase，它也并没有真正帮助我理解。

1 个答案:

答案 0 :(得分：1)

奖励是按时间间隔划分的平均速度： [-3，3]。

深度流量环境的实现位于此文件中： https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我正在尝试使其可读。这里是在制品： https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;