我为神经网络编写了自定义丢失函数,但它无法计算任何渐变。我认为这是因为我需要最高值的索引,因此使用argmax来获取此索引。
由于argmax是不可区分的,我可以解决这个问题,但我不知道它是如何可能的。
有人可以帮忙吗?
答案 0 :(得分:6)
如果你对近似很酷,
import tensorflow as tf
import numpy as np
sess = tf.Session()
x = tf.placeholder(dtype=tf.float32, shape=(None,))
beta = tf.placeholder(dtype=tf.float32)
# Pseudo-math for the below
# y = sum( i * exp(beta * x[i]) ) / sum( exp(beta * x[i]) )
y = tf.reduce_sum(tf.cumsum(tf.ones_like(x)) * tf.exp(beta * x) / tf.reduce_sum(tf.exp(beta * x))) - 1
print("I can compute the gradient", tf.gradients(y, x))
for run in range(10):
data = np.random.randn(10)
print(data.argmax(), sess.run(y, feed_dict={x:data/np.linalg.norm(data), beta:1e2}))
这是使用一种技巧,即在低温环境中计算均值可以得出概率空间的近似最大值。在这种情况下,低温与beta
非常大相关。
事实上,当beta
接近无穷大时,我的算法将收敛到最大值(假设最大值是唯一的)。不幸的是,在出现数字错误并获得NaN
之前,测试版不会太大,但如果您愿意,还有一些技巧可以解决。
输出类似于
0 2.24459
9 9.0
8 8.0
4 4.0
4 4.0
8 8.0
9 9.0
6 6.0
9 8.99995
1 1.0
所以你可以看到它在某些地方搞砸了,但经常得到正确的答案。根据您的算法,这可能没问题。
答案 1 :(得分:3)
正如aidan所建议的,它只是一个softargmax,延伸到beta的极限。我们可以使用tf.nn.softmax
来解决数字问题:
def softargmax(x, beta=1e10):
x = tf.convert_to_tensor(x)
x_range = tf.range(x.shape.as_list()[-1], dtype=x.dtype)
return tf.reduce_sum(tf.nn.softmax(x*beta) * x_range, axis=-1)
答案 2 :(得分:1)
如果输入的值范围为正,并且您不需要最大值的确切索引,但它是单引号形式就足够了,则可以使用sign
函数,如下所示:< / p>
import tensorflow as tf
import numpy as np
sess = tf.Session()
x = tf.placeholder(dtype=tf.float32, shape=(None,))
y = tf.sign(tf.reduce_max(x,axis=-1,keepdims=True)-x)
y = (y-1)*(-1)
print("I can compute the gradient", tf.gradients(y, x))
for run in range(10):
data = np.random.random(10)
print(data.argmax(), sess.run(y, feed_dict={x:data}))
答案 3 :(得分:0)
tf.argmax不可区分,因为它返回一个整数索引。 tf.reduce_max和tf.maximum是可区分的