标签: reinforcement-learning q-learning
据我了解Q学习,Q值是衡量特定状态 - 动作对“有多好”的指标。这通常以下列方式之一表示在表格中(见图):
答案 0 :(得分:1)
没有。通常,动作不等同于向特定状态的转换。可以存在与状态不同的动作数量,相同的动作可以导致不同的状态,这取决于其执行的状态,并且不同的动作可以导致相同的状态。过渡也可以是随机的。
见(1)。