我在在线学习环境中使用Tensorflow。 随着成本函数的实施:
cost = tf.sqrt(tf.reduce_mean(tf.square(tf.sub(Y, output))))
优化完成如下:
train_op = tf.train
.GradientDescentOptimizer(0.0001)
.minimize(cost,name="GradientDescent")
我运行Stochastic Gradient Descent就像:
m, i = sess.run([merged, train_op], feed_dict={X: input_batch,Y:label_batch})
因此,input_batch和label_batch每个只包含一个向量。
这是一种随机方法的良好进展吗? 为什么差距会变大?
我使用相同的50个训练样例训练网络50'000次。 所以每个例子用于每51步训练10'000次。
我已经尝试过以两种方式将学习率改为10倍。 此问题与我的其他问题有关:Does Stochastic Gradient Descent even work with TensorFlow?
感谢任何提示。