我用DQN训练了一款简单的汽车游戏。
输入:汽车的x坐标,障碍物的x,y坐标
输出:汽车行动
奖励:当它成功闪避时。
惩罚:当它撞墙或障碍物时。
NN架构: 1st hidden_layer_size:100(激活功能:relu) 第2个hidden_layer_size:50(激活函数:relu)
优化器:Adamm学习率:1e-6
失去了功能。 :(Y - Y_var)^ 2
TARGET_NN_UPDATE_INTERVAL = 1000
epsilon衰变:1到0,速率为0.99
结果:
Q值。性能随着训练而波动。对我来说很奇怪。虽然这个游戏并不复杂,但它似乎找不到理想的解决方案。您认为问题是什么?