应用错误收集

如何估算每集的平均Q值？

时间：2018-03-10 14:04:44

标签： python deep-learning reinforcement-learning openai-gym

我正在研究DQN算法的几种变体，我想比较他们的学习效率。我已经看到一些图表显示了某些github存储库中每集的平均Q值。我感到很困惑，因为神经网络为我在游戏中的每一步都给出了每个动作的Q值。如何计算以＆＃34;每集平均Q值计算的值＆＃34;图形？

1 个答案:

答案 0 :(得分：1)

执行此操作的一种方法是跟踪每个操作的Q值和一集中采取的步骤数。要获得每集的平均Q值，您只需总结每步Q值并除以该集中的步数。或者更正式地说：

其中N是步骤总数，Q_i是步骤i的Q值。

话虽如此，对我来说有点奇怪，你会跟踪Q值，因为通常每个状态/动作对都有一些与之相关的Q值，所以我在这里建议没有太大帮助。也许你的意思是平均＆＃34;奖励＆＃34;代替？