应用错误收集

我有一个代理商，应该对我给它的不同输入做出反应。让“ A-> B”代表代理对输入A的反应B。

我希望我的经纪人学会根据输入的历史做出不同的反应。例如，让每个“情节”包括：1.我提供输入。 2.代理起反应。 3.我再输入一次。 4.代理反应。 5.情节结束。

如果有两个可能的输入i1和i2，以及两个可能的动作a1和a2，我希望我的代理在所有可能的情节中做出如下反应（值不太重要）： i1-> a2，i1-> a1; i1-> a2，i2-> a1; i2-> a2，i1-> a2； i2-> a2，i2-> a1;

即我希望我的代理对第二步中的输入做出不同的反应，具体取决于第一步和第二步中的输入。

问题：学习此算法的合适的RL算法是什么？一开始，我想使用Q-Learning，但问题是我的状态转换不依赖于代理的动作。即如果它与a1对i1做出反应，则代理此时不知道下一个“状态”是i1还是i2。

我们将不胜感激。