reinforcement-learning - Q学习二十一点，奖励功能？

我目前正在学习强化学习，并且已经建立了二十一点游戏。

游戏结束时有明显的奖励（支出），但是某些操作并不能直接带来奖励（按5击中），即使最终结果为负（松散）也应鼓励手）。

我的问题是，这些行为应获得的报酬是什么？

我可以为不会导致爆胎的命中打出积极的奖励（赢得手的奖励分数），但是感觉好像我没有正确解决问题。

此外，当我为获胜分配奖励时（在移手结束后），我会更新与最后一个动作/状态对相对应的q值，这似乎不是最优的，因为该动作可能不会直接导致赢。

我认为的另一种选择是为序列中的所有动作/状态对分配相同的最终奖励，但是，即使导致失手也应该鼓励某些动作（例如击中计数<10）。

注意：我的最终目标是将Deep-RL与LSTM结合使用，但我是从q学习开始的。