Question

我已经实现了https://arxiv.org/pdf/1710.10903.pdf的注意力（公式1），但它显然没有内存效率，并且我的GPU上只能运行一个模型（需要7-10GB）。

目前，我有

class MyModule(nn.Module):

def __init__(self, in_features, out_features):
    super(MyModule, self).__init__()
    self.in_features = in_features
    self.out_features = out_features

    self.W = nn.Parameter(nn.init.xavier_uniform(torch.Tensor(in_features, out_features).type(torch.cuda.FloatTensor if torch.cuda.is_available() else torch.FloatTensor), gain=np.sqrt(2.0)), requires_grad=True)
    self.a = nn.Parameter(nn.init.xavier_uniform(torch.Tensor(2*out_features, 1).type(torch.cuda.FloatTensor if torch.cuda.is_available() else torch.FloatTensor), gain=np.sqrt(2.0)), requires_grad=True)

def forward(self, input):
    h = torch.mm(input, self.W)
    N = h.size()[0]

    a_input = torch.cat([h.repeat(1, N).view(N * N, -1), h.repeat(N, 1)], dim=1).view(N, -1, 2 * self.out_features)
    e = F.elu(torch.matmul(a_input, self.a).squeeze(2))
    return e

我对计算所有e_ij术语的见解是

In [8]: import torch

在[9]中：将numpy导入为np

在[10]中：h = torch.LongTensor（np.array（[[1,1]，[2,2]，[3,3]]））

在[11]中：N = 3

在[12]中：h.repeat（1，N）.view（N * N，-1）出[12]：

[torch.LongTensor of size 9x2]

在[13]中：h.repeat（N，1）出[13]：

[torch.LongTensor of size 9x2]

最后连接hs和feed矩阵a。

有没有办法以更加内存友好的方式做到这一点？

Answer 1

也许您可以使用稀疏张量来存储adj_mat

def sparse_mx_to_torch_sparse_tensor(sparse_mx):
    """Convert a scipy sparse matrix to a torch sparse tensor."""
    sparse_mx = sparse_mx.tocoo().astype(np.float32)
    indices = torch.from_numpy(np.vstack((sparse_mx.row,
                                          sparse_mx.col))).long()
    values = torch.from_numpy(sparse_mx.data)
    shape = torch.Size(sparse_mx.shape)
    return torch.sparse.FloatTensor(indices, values, shape)

PyTorch：如何实现图注意层

1 个答案: