应用错误收集

我正在尝试创建一个前馈神经网络来学习玩扑克。我有很多关于扑克游戏的数据（数十万手）。

障碍是，在扑克游戏中，奖金没有目标价值，获得0以上的利润是好的，但这不是目标。投注所有筹码并赢得最高金额可能是目标利润，但几乎所有的手牌都会有远离此的赢/输，所以我想避免这种情况。

在过去，我只遇到权重更新技术，它们使用与目标值的偏差。是否有一些方法我可以使用0以上的利润鼓励该决定而低于0的利润会阻止该决定？