标签: machine-learning reinforcement-learning preconditions
在强化学习中训练模型时,
在时间t,有状态S(t)和动作空间A(t),但是动作a(t)的选择会影响下一个动作空间A(t + 1),就像行动空间A(t + 1)被禁止,在这种情况下,如何在训练过程中对其建模?
我发现可能有三种方法可以做到: -在训练过程中禁用/删除一些动作空间,但这会对训练过程产生影响吗? -或者,如果受过训练的代理人选择禁止的行为,我们可以提供巨额的负面奖励。 -或者,如果禁止的选择是最好的选择,我们只是使用了第二个最佳值。
哪个可能是最佳选择,为什么还有其他选择?