我有一个模型,其状态取决于多个动作;我可以将一个参数作为动作,但是如果状态转换取决于多个动作呢?
答案 0 :(得分:0)
在诸如Q-Learning之类的强化学习技术中,每个状态变化都是概率性的,并且取决于一个动作。这用于估计预期的奖励(例如Q值中的Q值: Q(s,a))。
如果没有大量动作,则可以定义可以一起出现的动作组合作为新动作;例如如果您有操作 a 1 和 a 2 ,则可以执行操作 a 3 可以同时应用两个动作的效果。 另一个想法是定义一种更高的动作层次。
您还应该看看几本科学著作,其中它们使用多种动作进行状态转换,如this thread中所述。