我是强化学习和做国际象棋项目的新手。我使用神经网络和时间差异学习训练引擎学习游戏。
神经网络有一个输入层(385个特征),两个隐藏层和一个输出层,其范围为[-1,1],其中-1表示丢失,1表示赢(0绘制)。我使用TD-lambda来自学国际象棋,默认情况是只考虑接下来的10个动作。所有权重都在[-1,1]范围内初始化。
我使用前向传播来估计状态值,但是大多数值都非常接近1或-1,即使结果是平局,我认为引擎并不能很好地学习。我认为一些值很大并且在结果中占主导地位,改变小重量没有任何帮助。我改变了两个隐藏层的大小,但它没有工作(但是,我尝试过一个尺寸和尺寸都很小的玩具示例,它可以收敛,经过几十次迭代后,估计值非常接近目标值) 。我不知道如何解决这个问题,有人可以给我一些建议吗?
谢谢。
下面列出了一些参考资料