Question

这是一个玩具模型。我在调用backward一次之前打印模型参数，然后再次打印模型参数。参数不变。如果我在调用model:updateParameters(<learning_rate>)后添加了行backward，我会看到参数更新。

但是在我见过的示例代码中，例如https://github.com/torch/demos/blob/master/train-a-digit-classifier/train-on-mnist.lua，实际上没有人调用updateParameters。此外，optim.sgd，optim.adam或nn.StochasticGradient也不会调用updateParameters。我在这里错过了什么？参数如何自动更新？如果我必须致电updateParameters，为什么没有例子呢？

require 'nn'
require 'optim'

local model = nn.Sequential()
model:add(nn.Linear(4, 1, false))
local params, grads = model:getParameters()

local criterion = nn.MSECriterion()
local inputs    = torch.randn(1, 4)
local labels    = torch.Tensor{1}

print(params)

model:zeroGradParameters()
local output = model:forward(inputs)
local loss   = criterion:forward(output, labels)
local dfdw   = criterion:backward(output, labels)
model:backward(inputs, dfdw)

-- With the line below uncommented, the parameters are updated:
-- model:updateParameters(1000)

print(params)

Answer 1

backward()不应该更改参数，它只是根据网络的所有参数计算误差函数的导数。

一般来说，培训是步骤的顺序：

repeat
  local output = model:forward(input) --see what model predicts
  local loss = criterion:forward(output, answer) --see how wrong it is
  local loss_grad = criterion:backward(output, answer) --see where it is the most wrong
  model:backward(input,loss_grad) --see how much each particular parameter of network is responsible for error
  model:updateParameters(learningRate) --fix the parameters based on their wrongness
  model:zeroGradParameters() --network parameters are different now, so old gradients are of no use now
until is_user_satisfied()

updateParameters在这里实现了最简单的优化算法（梯度下降）。如果这样倾向，您可以使用自己的功能代替。理论上，您可以通过网络存储执行显式循环来更新其值。实际上，您通常会拨打getParameters()

local model_parameters,model_parameters_gradient=model:getParameters()

这会产生所有值和梯度的均匀张量。这些张量是网络内部的视图，因此它们的变化会影响网络。您可能不知道网络中哪个点对应哪个值，但大多数优化器并不关心它。

optim.sgd使用的demo如下：

optim.sgd(
   function_to_return_error_and_its_gradients, 
   model_parameters,
   optimizer_special_settings)

演示中介绍了具体细节，但优化器接收model_parameters作为参数，使其具有对网络的写访问权限。并且在文档中没有明确说明，但在source code中可以看出，优化器会更改其输入张量的值（另请注意，它返回相同张量）它收到了。

火炬：模型参数如何更新？

1 个答案: