应用错误收集

我不知道该数据在任何地方都可以公开获得。的确，据我所知，所有使用此类人类启动评估的论文都是由同一实验室/组织（DeepMind）撰写的，因此并不排除DeepMind保留数据的可能性内部的，尚未与外部研究人员共享。

请注意，论文Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents提出了一种不同的（可能更好）的方法来引入环境中所需的随机性，从而通过简单地记住很强的动作序列来抑制算法。该方法的方法称为粘性动作，在该文件的第5.2节中进行了说明。在5.3中，他们还描述了其他方法的许多弊端，包括人类启动方法的弊端。

除了可以说仅仅是一种更好的方法之外，粘性动作方法还具有以下优点：所有研究人员都可以很容易地实现和使用它，从而可以进行公平的比较。因此，我强烈建议您简单地使用粘性动作，而不要人工操作。明显的缺点是，您无法再轻松地将结果与那些带有人工启动的DeepMind论文中报告的结果进行比较，但是这些评估仍然存在如上文链接的论文中所述的许多缺陷（人工启动可以视为一个缺陷，但是它们还经常存在其他缺陷，例如报告最佳运行结果而不是报告多次运行的平均值等。

人体痕迹数据，用于评估扮演Atari的强化学习代理？

1 个答案: