标签: keras reinforcement-learning
我正在尝试使用keras和强化学习来开发一种AlphaZero国际象棋引擎。我玩一些角蛋白游戏,并保存这些游戏中的数据以供以后学习。完成自播放后,我想用此数据训练模型。我的问题是:我是否可以像其他方法那样拟合模型?
model.compile(optimizer=opt, loss=losses) model.fit(x, y, batch_size=batch_size, epochs=epochs)
还是在强化学习中看起来与众不同?