Keras,Stochastic Gradient Descent - 参数意味着什么

时间:2018-03-18 17:36:40

标签: python parameters deep-learning keras gradient-descent

我不知道详细的随机梯度下降算法如何工作,我现在不需要知道这一点。我所知道的是,它通过计算梯度和进入局部最小值的方向来最小化损失函数。但我在使用Keras的项目中使用Stochastic Gradient Descent作为优化器,我不知道这个优化器的参数意味着什么。显然,这些参数很快就在文档中描述,但它不够具体,我仍然不明白它们的意思。

那么你能解释这4个参数:

df2 <- df[,c(1:10, endcol_start:endcol, 11:midcol_end)]

我怎么知道如何设置它们?

1 个答案:

答案 0 :(得分:1)

学习率是您采取的最小步长。如果您使用较高的学习率,则存在超出最小值的风险。如果选择它很小,则需要很长时间才能达到最小值。学习率的一个好起点是0.01,并将其增加到0.03,0.1,0.3等等。相反,衰减取决于学习率应该随着时间的推移而减少多少。其背后的原因是,在训练开始时,您可能需要很高的学习率才能快速达到最低限度。之后,您需要较小的学习率才能精确到达最低限度。

很抱歉,但对其他两个不太了解,虽然我的文字太长了,无法作为评论插入。