神经象棋:样本神经网络陷入价值困境

时间:2018-07-14 04:57:20

标签: python pytorch reinforcement-learning activation-function

我正在尝试编写一个下棋的神经网络,但是我遇到了输出问题。我正在使用python-chess库,并内置了奖励。该网络具有4个输出和3个完全连接层。 4个输出应映射在0到7之间,前两个和最后两个输出将每个映射映射到一个正方形的等级和文件。为了压缩输出,我对每个输出进行S形变换并乘以7。问题是,经过几次学习之后,学习就遇到了障碍。无论初始种子如何,网络都会输出相同的输出,例如3443或4333,并且在S型信号之前的输出都超级接近于零。我认为这是事实,因为失败的举动带来了负回报,而S型导数将输出移到0,从而输出了3s和4s。我需要这个网络通过强化学习来学习,但这严重阻碍了它的学习。

代码:

5a82b1a61dab4b54fj01f212e

0 个答案:

没有答案
相关问题