Question

我正在尝试编写一个下棋的神经网络，但是我遇到了输出问题。我正在使用python-chess库，并内置了奖励。该网络具有4个输出和3个完全连接层。 4个输出应映射在0到7之间，前两个和最后两个输出将每个映射映射到一个正方形的等级和文件。为了压缩输出，我对每个输出进行S形变换并乘以7。问题是，经过几次学习之后，学习就遇到了障碍。无论初始种子如何，网络都会输出相同的输出，例如3443或4333，并且在S型信号之前的输出都超级接近于零。我认为这是事实，因为失败的举动带来了负回报，而S型导数将输出移到0，从而输出了3s和4s。我需要这个网络通过强化学习来学习，但这严重阻碍了它的学习。

代码：

5a82b1a61dab4b54fj01f212e

神经象棋：样本神经网络陷入价值困境

0 个答案: