标签: deep-learning reinforcement-learning
我创建了DDQN代理,但是在学习阶段会出现一些波动。我想知道是否可以去除附加曲线的“反尖峰”(=振荡)? Learning Curve。
有关信息:我使用3个ReLU隐藏层,每个层100个单位,作为优化程序,我使用Adam的学习速率为0.005,损失为MSE。
谢谢