RuntimeError:还原步骤2之后:设备端断言在Jupyter Notebook上触发了Pytorch

时间:2019-05-29 11:29:41

标签: python-3.x binary gpu pytorch

我正在使用Jupyter Notebook上的Pytorch训练二进制分类器。以下是架构:

class AlexNet(nn.Module):
    def __init__(self, num_classes=1):
        super(AlexNet, self).__init__()
        self.conv_base = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2, bias=False),
            nn.BatchNorm2d(96),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(96, 256, kernel_size=5, stride=1, padding=2, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(256, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(384, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(384, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.fc_base = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256*6*6, 4096),
            nn.ReLU(inplace=True),

            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),

            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.conv_base(x)
        x = x.view(x.size(0), 256*6*6)
        x = self.fc_base(x)
        return x

这些是我训练的参数:

criterion = nn.BCELoss()

# specify optimizer
optimizer = torch.optim.SGD(model.parameters(), lr=2e-5, momentum=0.9)

开始训练时,出现以下错误:

  

RuntimeError:在减少步骤2之后:触发了设备端断言

一些奇怪的事情也在发生:

1)是在某一时间进行训练,但是学习率很小。因此,当我更改它并再次开始训练过程时,我得到了错误。

2)运行此命令时,我也收到此错误:

model = AlexNet()
model.cuda()

错误:

  

RuntimeError:CUDA错误:设备端断言已触发

我发现一些暂时可行的解决方案是:

1)将os.environ['CUDA_LAUNCH_BLOCKING'] = '1'添加到笔记本中。 2)正在使用GPU内存。因此,我删除了运行笔记本的进程。

但是,似乎没有任何东西可以永久起作用。有什么建议吗?

1 个答案:

答案 0 :(得分:0)

我可以回答子问题(1)。来自模型的Logit作为输入直接输入到BCELoss中,实际上假设输入描述了概率分布。您可以通过将RuntimeError替换为nn.BCELoss来修复您的第一个nn.BCEWithLogitsLoss,后者首先通过S形函数将最终线性层的输出馈入。