在最近关于Atari游戏的强化学习研究中,代理人的表现是通过人类的起步来评估的。
在人类起步评估中,学到的特工从人类专业人员的游戏中开始随机采样点的情节。
我的问题是:
我在哪里可以得到这个人类专家的游戏追踪数据?
为了进行票价比较,每个研究之间的跟踪数据应该相同,但是我找不到这些数据。
答案 0 :(得分:1)
我不知道该数据在任何地方都可以公开获得。的确,据我所知,所有使用此类人类启动评估的论文都是由同一实验室/组织(DeepMind)撰写的,因此并不排除DeepMind保留数据的可能性内部的,尚未与外部研究人员共享。
请注意,论文Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents提出了一种不同的(可能更好)的方法来引入环境中所需的随机性,从而通过简单地记住很强的动作序列来抑制算法。该方法的方法称为粘性动作,在该文件的第5.2节中进行了说明。在5.3中,他们还描述了其他方法的许多弊端,包括人类启动方法的弊端。
除了可以说仅仅是一种更好的方法之外,粘性动作方法还具有以下优点:所有研究人员都可以很容易地实现和使用它,从而可以进行公平的比较。因此,我强烈建议您简单地使用粘性动作,而不要人工操作。明显的缺点是,您无法再轻松地将结果与那些带有人工启动的DeepMind论文中报告的结果进行比较,但是这些评估仍然存在如上文链接的论文中所述的许多缺陷(人工启动可以视为一个缺陷,但是它们还经常存在其他缺陷,例如报告最佳运行结果而不是报告多次运行的平均值等。