首先,我从方法论的角度认识到为什么损失函数必须依赖于神经网络的输出。这个问题更多来自我在尝试更好地了解Keras和Tensorflow时所做的实验。请考虑以下内容:
input_1 = Input((5,))
hidden_a = Dense(2)(input_1)
output = Dense(1)(hidden_a)
m3 = Model(input_1, output)
def myLoss (y_true, y_pred):
return K.sum(hidden_a) # (A)
#return K.sum(hidden_a) + 0*K.sum(y_pred) # (B)
m3.compile(optimizer='adam', loss=myLoss)
x = np.random.random(size=(10,5))
y = np.random.random(size=(10,1))
m3.fit(x,y, epochs=25)
此代码可以诱导:
ValueError: An operation has `None` for gradient. Please make sure that all of your ops have a gradient defined (i.e. are differentiable). Common ops without gradient: K.argmax, K.round, K.eval.
但是如果将行A
交换为行B
,尽管事实没有发生任何数字上的变化,它仍然可以运行。
前一种情况似乎对我来说应该很好。计算图定义良好,并且所有应该在损耗方面都是可区分的。但是看来Keras要求y_pred
一定要处于损失函数中,而不管其是否起作用。
谢谢!
答案 0 :(得分:4)
事实证明,这有点棘手。实际上,Keras不需要y_pred
处于损失函数中。但是,它需要在损失函数中引用所有个可训练变量。
调用m3.fit()
时,Keras将在损失函数和可训练层的权重之间执行梯度计算。如果损失函数未引用与trainable_variables集合中相同的元素,则某些梯度计算操作将无法进行。
那么如何避免呢?那么,即使什么也没做,您仍可以引用y_pred
。或者,您可以冻结不受优化程序影响的图层(因为无论如何您都不会计算其损失)
因此,在您的情况下,只需冻结输出层:
output = Dense(1, trainable = False)(hidden_a)