如何估算每集的平均Q值?

时间:2018-03-10 14:04:44

标签: python deep-learning reinforcement-learning openai-gym

我正在研究DQN算法的几种变体,我想比较他们的学习效率。我已经看到一些图表显示了某些github存储库中每集的平均Q值。我感到很困惑,因为神经网络为我在游戏中的每一步都给出了每个动作的Q值。如何计算以"每集平均Q值计算的值"图形?

1 个答案:

答案 0 :(得分:1)

执行此操作的一种方法是跟踪每个操作的Q值和一集中采取的步骤数。要获得每集的平均Q值,您只需总结每步Q值并除以该集中的步数。或者更正式地说:

enter image description here

其中N是步骤总数,Q_i是步骤i的Q值。

话虽如此,对我来说有点奇怪,你会跟踪Q值,因为通常每个状态/动作对都有一些与之相关的Q值,所以我在这里建议没有太大帮助。也许你的意思是平均"奖励"代替?