我有一个代理商,应该对我给它的不同输入做出反应。让“ A-> B”代表代理对输入A的反应B。
我希望我的经纪人学会根据输入的历史做出不同的反应。 例如,让每个“情节”包括:1.我提供输入。 2.代理起反应。 3.我再输入一次。 4.代理反应。 5.情节结束。
如果有两个可能的输入i1和i2,以及两个可能的动作a1和a2,我希望我的代理在所有可能的情节中做出如下反应(值不太重要): i1-> a2,i1-> a1; i1-> a2,i2-> a1; i2-> a2,i1-> a2; i2-> a2,i2-> a1;
即我希望我的代理对第二步中的输入做出不同的反应,具体取决于第一步和第二步中的输入。
问题:学习此算法的合适的RL算法是什么?一开始,我想使用Q-Learning,但问题是我的状态转换不依赖于代理的动作。即如果它与a1对i1做出反应,则代理此时不知道下一个“状态”是i1还是i2。
我们将不胜感激。