标签: tensorflow neural-network reinforcement-learning
我正在尝试训练一个玩yahtzee的神经网络。 每次转动时,网眼都必须选择一个类别,例如“一个”,“三个”等。有13种不同的类别,因此网络的输出层是长度为13的单热点向量。 根据游戏规则,不能两次选择类别。因此,随着游戏的继续,网络的输出尺寸实际上正在缩小。 如何解决防止网禁止转弯的问题?