应用错误收集

在强化学习中训练模型时，

在时间t，有状态S（t）和动作空间A（t），但是动作a（t）的选择会影响下一个动作空间A（t + 1），就像行动空间A（t + 1）被禁止，在这种情况下，如何在训练过程中对其建模？

我发现可能有三种方法可以做到： -在训练过程中禁用/删除一些动作空间，但这会对训练过程产生影响吗？ -或者，如果受过训练的代理人选择禁止的行为，我们可以提供巨额的负面奖励。 -或者，如果禁止的选择是最好的选择，我们只是使用了第二个最佳值。

哪个可能是最佳选择，为什么还有其他选择？