tensorflow文档说明:
调用minimize()会同时计算渐变和 将它们应用于变量。如果要处理渐变 在应用它们之前,您可以分三步使用优化器:
使用compute_gradients()计算渐变。处理渐变 如你所愿。使用apply_gradients()应用已处理的渐变。
然而,给出的例子是香草SGD。 这两步过程是否适用于其他类型的优化器(如动量,亚当等),它们不直接使用渐变而是使用其他衍生下降方向?
如果是这样,在compute_gradients或apply_gradients中计算各种中间变量和最终下降方向的位置?
感谢。