应用错误收集

当行动不影响强化学习中的状态时，它叫什么？

时间：2018-05-19 01:35:38

标签： machine-learning reinforcement-learning

在强化学习中，是否有一个算法的名称，其中所采取的行动不会影响国家？例如武装强盗

1 个答案:

答案 0 :(得分：3)

在RL设置中，armed bandits被视为无状态，因此自然动作不会影响状态。只有行动和奖励。

如果添加状态，但操作对下一个状态没有影响，则称为Contextual Bandits。语境匪徒有状态，行动和奖励。您的状态（或“上下文”）可能会影响您的操作，但不会影响您的操作，即没有像普通RL那样的转换规则。