使用DQN训练时,性能会有波动

时间:2018-04-14 23:47:05

标签: reinforcement-learning

The game windowe

我用DQN训练了一款简单的汽车游戏。

输入:汽车的x坐标,障碍物的x,y坐标

输出:汽车行动

奖励:当它成功闪避时。

惩罚:当它撞墙或障碍物时。

NN架构: 1st hidden_​​layer_size:100(激活功能:relu) 第2个hidden_​​layer_size:50(激活函数:relu)

优化器:Adamm学习率:1e-6

失去了功能。 :(Y - Y_var)^ 2

TARGET_NN_UPDATE_INTERVAL = 1000

epsilon衰变:1到0,速率为0.99

结果:

  • Reward_history(奖励相当于一些避开障碍物)

reward history

Q值。性能随着训练而波动。对我来说很奇怪。虽然这个游戏并不复杂,但它似乎找不到理想的解决方案。您认为问题是什么?

0 个答案:

没有答案