标签: tensorflow deep-learning reinforcement-learning tensorboard
这是问题所在。我尝试重写CartPole-v0的dpn示例。这个例子汇集了不到2000集,然而,我的版本无法收敛。
因此,我使用TensorBoard作为帮助我找出问题的工具。我发现这两个代码具有相同的图形
更重要的是,我发现损失的图表非常不同。 loss of the example loss of mine
我想知道问题是什么。如果有人能帮助我,我将不胜感激!谢谢!
P.S。如果需要代码。我可以上传它们。它们都短于200行。