我对tensorflow相当新。发现这段代码训练模型以减少损失:
loss = -(tf.log(responsible_weight)*reward_holder)
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
update = optimizer.minimize(loss)
这里' reward_holder'根据随机数给出1或-1。 ' responsible_weight'是从占位符中选择的浮点数,其值也与随机数相关。我的问题是在调整过程的每一步都会更新什么? respons_weight每次都会增加或减少0.01吗?感谢。