我一直在玩MIT DeepTraffic Challenge 另外watching the lecture and reading the slides
对体系结构有了基本了解之后,我想知道环境赋予的奖励功能到底是什么。
我还找到了这个JavaScript Codebase,它也并没有真正帮助我理解。
答案 0 :(得分:1)
奖励是按时间间隔划分的平均速度: [-3,3]。
深度流量环境的实现位于此文件中: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我正在尝试使其可读。这里是在制品: https://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;