标签: machine-learning reinforcement-learning
在强化学习中,是否有一个算法的名称,其中所采取的行动不会影响国家?例如武装强盗
答案 0 :(得分:3)
在RL设置中,armed bandits被视为无状态,因此自然动作不会影响状态。只有行动和奖励。
如果添加状态,但操作对下一个状态没有影响,则称为Contextual Bandits。语境匪徒有状态,行动和奖励。您的状态(或“上下文”)可能会影响您的操作,但不会影响您的操作,即没有像普通RL那样的转换规则。