应用错误收集

我是强化学习和做国际象棋项目的新手。我使用神经网络和时间差异学习训练引擎学习游戏。

神经网络有一个输入层（385个特征），两个隐藏层和一个输出层，其范围为[-1,1]，其中-1表示丢失，1表示赢（0绘制）。我使用TD-lambda来自学国际象棋，默认情况是只考虑接下来的10个动作。所有权重都在[-1,1]范围内初始化。

我使用前向传播来估计状态值，但是大多数值都非常接近1或-1，即使结果是平局，我认为引擎并不能很好地学习。我认为一些值很大并且在结果中占主导地位，改变小重量没有任何帮助。我改变了两个隐藏层的大小，但它没有工作（但是，我尝试过一个尺寸和尺寸都很小的玩具示例，它可以收敛，经过几十次迭代后，估计值非常接近目标值）。我不知道如何解决这个问题，有人可以给我一些建议吗？

谢谢。

下面列出了一些参考资料

Giraffe: Using Deep Reinforcement Learning to Play Chess
KnightCap
Web Stanford

强化学习培训

0 个答案: