在深度强化学习的背景下,批量大小是什么意思?

时间:2019-04-02 11:41:05

标签: reinforcement-learning batchsize

批量大小是指在监督学习中接受神经工作训练的样本数量,但是,在强化学习的背景下,批量大小的含义是什么?它也指样品吗?如果是这样,那么强化学习背景下的样本意味着什么?

1 个答案:

答案 0 :(得分:2)

与监督学习相比,批量学习的确在强化学习中具有相同的含义。 “分批学习”的直觉(通常在小批量生产中)有两个方面:

  1. 由于硬件的内存限制,可能难以对超过1,000,000个数据点进行批量梯度下降。
  2. 要计算整个数据子集(代表整个数据)的损耗梯度。如果您在每个步骤上训练的批次不能代表全部数据,则更新步骤将存在偏差。

在诸如神经网络的监督学习中,您将进行小批量梯度下降以更新您的神经网络。在深度强化学习中,您正在训练相同的神经网络,因此它以相同的方式工作。

在监督学习中,您的批次将由一组功能及其相应的标签组成。在深度强化学习中,它是相似的。它是一个元组(状态,动作,奖励,t + 1时的状态,有时是完成的)。

状态:描述您的环境的原始状态

动作:您在该环境状态下执行的动作

奖励:在该状态下执行该操作后获得的奖励信号

状态t + 1:您的操作将您转移到的新状态。

完成:一个布尔值,表示任务的结束。例如,如果您训练RL打象棋,那么完成将可能是赢得或输掉了国际象棋比赛。

您将对这些(s,a,r,s(t + 1)完成)元组进行抽样。然后,将其输入TD更新规则中,通常采用以下格式:

enter image description here

两个Q是动作值,是通过将s,s(t + 1)和a传递到您的神经网络来计算的。

然后,您将使用Q作为标签更新神经网络。