渐变下降-不同的特征单位

时间:2018-12-01 02:42:59

标签: machine-learning optimization gradient-descent

假设我具有以下功能:

f_1 =从6变为10

f_2 =从0.1变为0.5

f_3 = 10,000到15,000

假设我将学习率设置为0.001,但我没有规范/缩放我的特征。

我知道不同类型的梯度(SGD / GD / MBGD)如何在每次批处理后优化权重,但是如何以某些特征单元没有意义的学习率来实现呢?

这不是效率低下吗?

0 个答案:

没有答案