我试图将问题作为强化学习问题。我的困难在于代理人所处的状态是随机变化的。他们必须在他们所处的州内选择一项行动。我希望根据他们为执行行动而获得的奖励,为所有州学习适当的行动。
问题:
这是一种特定类型的RL问题吗? 如果没有继承状态,那么如何计算一个状态的值?
答案 0 :(得分:2)
如果状态确实随机变化,如果操作与以下状态之间没有关系,那么您所能做的就是记录并平均每个操作和每个状态的奖励。
答案 1 :(得分:0)
所以我发现这将被称为蒙特卡罗强化学习问题。不是基于可以转换到的状态的值将值与状态相关联,而是根据直接给予该状态的策略的结果将值与状态相关联。这对于状态转换函数的动态未知或高度随机且难以建模的情况非常有用。