标签: optimization machine-learning deep-learning artificial-intelligence
我知道随机梯度下降适用于以下形式的目标函数:
Q = sum(Qi)/N
其中Qi是第i次观察的贡献。
然而,我发现在一些学术着作中,作者同时应用SGD和正规化。那么SGD如何才能适应这种情况呢?