应用错误收集

我在在线学习环境中使用Tensorflow。随着成本函数的实施：

cost = tf.sqrt(tf.reduce_mean(tf.square(tf.sub(Y, output))))

优化完成如下：

train_op = tf.train
            .GradientDescentOptimizer(0.0001)
            .minimize(cost,name="GradientDescent")

我运行Stochastic Gradient Descent就像：

m, i = sess.run([merged, train_op], feed_dict={X: input_batch,Y:label_batch})

因此，input_batch和label_batch每个只包含一个向量。

那么如何解释成本函数，如：

这是一种随机方法的良好进展吗？为什么差距会变大？

我使用相同的50个训练样例训练网络50'000次。所以每个例子用于每51步训练10'000次。

我已经尝试过以两种方式将学习率改为10倍。此问题与我的其他问题有关：Does Stochastic Gradient Descent even work with TensorFlow?

感谢任何提示。