批量大小是指在监督学习中接受神经工作训练的样本数量,但是,在强化学习的背景下,批量大小的含义是什么?它也指样品吗?如果是这样,那么强化学习背景下的样本意味着什么?
答案 0 :(得分:2)
与监督学习相比,批量学习的确在强化学习中具有相同的含义。 “分批学习”的直觉(通常在小批量生产中)有两个方面:
在诸如神经网络的监督学习中,您将进行小批量梯度下降以更新您的神经网络。在深度强化学习中,您正在训练相同的神经网络,因此它以相同的方式工作。
在监督学习中,您的批次将由一组功能及其相应的标签组成。在深度强化学习中,它是相似的。它是一个元组(状态,动作,奖励,t + 1时的状态,有时是完成的)。
状态:描述您的环境的原始状态
动作:您在该环境状态下执行的动作
奖励:在该状态下执行该操作后获得的奖励信号
状态t + 1:您的操作将您转移到的新状态。
完成:一个布尔值,表示任务的结束。例如,如果您训练RL打象棋,那么完成将可能是赢得或输掉了国际象棋比赛。
您将对这些(s,a,r,s(t + 1)完成)元组进行抽样。然后,将其输入TD更新规则中,通常采用以下格式:
两个Q是动作值,是通过将s,s(t + 1)和a传递到您的神经网络来计算的。
然后,您将使用Q作为标签更新神经网络。