了解torch.nn.Parameter

时间:2018-06-19 19:03:47

标签: python pytorch

我是pytorch的新手,我很难理解torch.nn.Parameter()的工作原理。

我已经阅读了https://pytorch.org/docs/stable/nn.html中的文档,但可能对它没有多大意义。

有人可以帮忙吗?

我正在处理的代码段:

def __init__(self, weight):
    super(Net, self).__init__()
    # initializes the weights of the convolutional layer to be the weights of the 4 defined filters
    k_height, k_width = weight.shape[2:]
    # assumes there are 4 grayscale filters
    self.conv = nn.Conv2d(1, 4, kernel_size=(k_height, k_width), bias=False)
    self.conv.weight = torch.nn.Parameter(weight)

2 个答案:

答案 0 :(得分:33)

我将为您分解。如您所知,张量是多维矩阵。原始形式的参数是张量,即多维矩阵。它对变量类进行子类化。

变量和参数之间的差异是在与模块关联时出现的。当参数与作为模型属性的模块关联时,它会自动添加到参数列表中,并且可以使用“参数”迭代器进行访问。

最初在Torch中,变量(例如可以是中间状态)也将在分配时作为模型的参数添加。后来,在一些用例中,确定了需要缓存变量而不是将其添加到参数列表中的情况。

文档中提到的一种情况就是RNN,在这种情况下,您需要保存最后的隐藏状态,因此不必一次又一次地传递它。之所以需要缓存一个变量,而不是让它自动作为模型的参数注册,是因为我们有一种明确的方法将参数注册到模型中,即nn.Parameter类。

例如,运行以下代码-

import torch
import torch.nn as nn
from torch.optim import Adam

class NN_Network(nn.Module):
    def __init__(self,in_dim,hid,out_dim):
        super(NN_Network, self).__init__()
        self.linear1 = nn.Linear(in_dim,hid)
        self.linear2 = nn.Linear(hid,out_dim)
        self.linear1.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
        self.linear1.bias = torch.nn.Parameter(torch.ones(hid))
        self.linear2.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
        self.linear2.bias = torch.nn.Parameter(torch.ones(hid))

    def forward(self, input_array):
        h = self.linear1(input_array)
        y_pred = self.linear2(h)
        return y_pred

in_d = 5
hidn = 2
out_d = 3
net = NN_Network(in_d, hidn, out_d)

现在,检查与此模型关联的参数列表-

for param in net.parameters():
    print(type(param.data), param.size())

""" Output
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
"""

或者尝试

list(net.parameters())

这可以很容易地馈送到您的优化器-

opt = Adam(net.parameters(), learning_rate=0.001)

此外,请注意,默认情况下,参数已设置了require_grad。

答案 1 :(得分:6)

最近的PyTorch版本中只有张量,因此变量的概念已经过时了。

Parameters只是张量,仅限于它们定义的模块(在模块构造函数__init__方法中)。

它们将显示在module.parameters()内部。 当您构建自定义模块时,这非常方便,由于这些参数的梯度下降,这些模块可以学习。

对于PyTorch张量而言,任何正确的条件对于参数都是正确的,因为它们是张量。

此外,如果模块转到GPU,参数也将转到。如果模块已保存,参数也将被保存。

模型参数buffers有类似的概念。

这些在模块内部被称为张量,但是这些张量并不是要通过梯度下降来学习的,相反,您可以认为它们就像变量一样。您将根据需要更新模块forward()中的命名缓冲区。

对于缓冲区,它们也将与模块一起进入GPU,并且将与模块一起保存。

enter image description here