应用错误收集

我对tensorflow相当新。发现这段代码训练模型以减少损失：

loss = -(tf.log(responsible_weight)*reward_holder) 
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
update = optimizer.minimize(loss)

这里＆＃39; reward_holder＆＃39;根据随机数给出1或-1。＆＃39; responsible_weight＆＃39;是从占位符中选择的浮点数，其值也与随机数相关。我的问题是在调整过程的每一步都会更新什么？ respons_weight每次都会增加或减少0.01吗？感谢。

梯度下降优化器最小化

0 个答案: