我有一个用例,其中环境状态可能由于代理采取行动的时间间隔之间的随机事件而改变。例如,在t1,代理采取行动a1,并获得奖励和新状态s1。在代理在t2采取下一个动作之前,环境中发生了一些随机事件,这些事件改变了状态。现在,当代理在t2采取行动时,由于环境状态已更改,它现在正在处理“过时的信息”。同样,新状态s2将不仅代表代理的行为,而且还代表先前发生的随机事件所代表的变化。在最坏的情况下,由于环境中发生了这些随机事件,对于引入的新状态,该操作可能变得无效。
我们如何处理?这是否意味着该用例不是用RF解决的好方法?如果我们只是由于环境中的随机事件而忽略了这些变化的状态,那将如何影响各种学习算法?我认为这在现实的用例中不是一个罕见或独特的问题...