标签: machine-learning optimization gradient-descent
假设我具有以下功能:
f_1 =从6变为10
f_2 =从0.1变为0.5
f_3 = 10,000到15,000
假设我将学习率设置为0.001,但我没有规范/缩放我的特征。
我知道不同类型的梯度(SGD / GD / MBGD)如何在每次批处理后优化权重,但是如何以某些特征单元没有意义的学习率来实现呢?
这不是效率低下吗?