标签: neural-network reinforcement-learning
我正在尝试创建一个前馈神经网络来学习玩扑克。我有很多关于扑克游戏的数据(数十万手)。
障碍是,在扑克游戏中,奖金没有目标价值,获得0以上的利润是好的,但这不是目标。投注所有筹码并赢得最高金额可能是目标利润,但几乎所有的手牌都会有远离此的赢/输,所以我想避免这种情况。
在过去,我只遇到权重更新技术,它们使用与目标值的偏差。是否有一些方法我可以使用0以上的利润鼓励该决定而低于0的利润会阻止该决定?