我必须使用以下参数运行代码。我了解随机梯度下降(SGD)方法,其中我们发送一小批样本并计算这个小批量的梯度,并假设它适用于整个训练样本。在计算梯度后我们更新。在下面的代码中,mini批处理是2000,所以我们必须在最初发送2000个样本后更新。我很困惑这个训练步骤在这里决定了什么?
parser.add_argument('--batch_size', type=int, default=2000,help='batch size of training (default 2000)')
parser.add_argument('--training_step', type=int, default=4000,help='training steps (default 4000)')