为什么Q-learning在未知环境中工作?

时间:2016-10-31 10:39:32

标签: terminology reinforcement-learning q-learning

Q-learning使用即时奖励矩阵R来模拟环境。这意味着它使用已知的矩阵R进行学习,那么为什么人们会说" Q-learning可以在未知的环境中工作"?

1 个答案:

答案 0 :(得分:2)

Q-Learning是一种算法,用于查找在马尔可夫决策过程(MDP)中选择最佳操作的策略。环境不仅由奖励定义,还由状态转移概率定义。 MDP不要求奖励是固定矩阵:它可以是任何功能。

如果所有状态和动作都知道状态转移概率和MDP的奖励,那么可以使用动态编程技术找到最优策略,因此您不需要强化学习。

与动态编程技术不同,如果奖励和状态转换概率未知,Q-Learning会起作用:也就是说,您只能在采取行动后看到奖励值。

Q-learning不使用即时奖励矩阵R,它只要求在状态a采取行动s后,它会收到状态s'和奖励值{{1} }。