随机梯度下降增加和广泛的扩散成本函数

时间:2016-12-20 15:26:26

标签: tensorflow gradient-descent

我在在线学习环境中使用Tensorflow。 随着成本函数的实施:

cost = tf.sqrt(tf.reduce_mean(tf.square(tf.sub(Y, output))))

优化完成如下:

train_op = tf.train
            .GradientDescentOptimizer(0.0001)
            .minimize(cost,name="GradientDescent")

我运行Stochastic Gradient Descent就像:

m, i = sess.run([merged, train_op], feed_dict={X: input_batch,Y:label_batch})

因此,input_batch和label_batch每个只包含一个向量。

那么如何解释成本函数,如: enter image description here

这是一种随机方法的良好进展吗? 为什么差距会变大?

我使用相同的50个训练样例训练网络50'000次。 所以每个例子用于每51步训练10'000次。

我已经尝试过以两种方式将学习率改为10倍。 此问题与我的其他问题有关:Does Stochastic Gradient Descent even work with TensorFlow?

感谢任何提示。

0 个答案:

没有答案