应用错误收集

Q表格表示

时间：2017-03-02 05:52:50

标签： reinforcement-learning q-learning

据我了解Q学习，Q值是衡量特定状态 - 动作对“有多好”的指标。这通常以下列方式之一表示在表格中（见图）：

这两种陈述都有效吗？
如果将Q表作为状态到状态转换表（如图中的顶部q表所示）给出，如何确定最佳操作，特别是如果状态转换不是确定性的（即，一个州的行动可以在不同的时间让你进入不同的国家？）

1 个答案:

答案 0 :(得分：1)

没有。通常，动作不等同于向特定状态的转换。可以存在与状态不同的动作数量，相同的动作可以导致不同的状态，这取决于其执行的状态，并且不同的动作可以导致相同的状态。过渡也可以是随机的。
见（1）。