我目前正在我的小型项目中,我会根据他们的海报预测电影类型。因此,在我拥有的数据集中,每部电影可以具有1到3种类型,因此每个实例可以属于多个类别。我总共有15个课程(15个流派)。因此,现在我面临的问题是如何使用pytorch对这个特定问题进行预测。
在pytorch CIFAR教程中,每个实例只能具有一个类别(例如,如果图像是汽车,则它应属于汽车类别),并且总共有10个类别。因此,在这种情况下,模型预测是通过以下方式定义的(从pytorch网站复制代码段):
import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
for epoch in range(2): # loop over the dataset multiple times
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
# get the inputs
inputs, labels = data
# zero the parameter gradients
optimizer.zero_grad()
# forward + backward + optimize
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
# print statistics
running_loss += loss.item()
if i % 2000 == 1999: # print every 2000 mini-batches
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 2000))
running_loss = 0.0
打印(“完成培训”)
问题1(用于培训部分)。您建议使用什么作为激活功能。我当时在考虑BCEWithLogitsLoss(),但不确定其效果如何。
,然后通过以下方式定义测试集预测的准确性: 对于整个网络:
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
以及每个课程:
class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs, 1)
c = (predicted == labels).squeeze()
for i in range(4):
label = labels[i]
class_correct[label] += c[i].item()
class_total[label] += 1
for i in range(10):
print('Accuracy of %5s : %2d %%' % (
classes[i], 100 * class_correct[i] / class_total[i]))
其中的输出如下:
Accuracy of plane : 36 %
Accuracy of car : 40 %
Accuracy of bird : 30 %
Accuracy of cat : 19 %
Accuracy of deer : 28 %
Accuracy of dog : 17 %
Accuracy of frog : 34 %
Accuracy of horse : 43 %
Accuracy of ship : 57 %
Accuracy of truck : 35 %
现在是问题2: 我该如何确定精度,以便通过以下方式查看:
例如:
The Matrix (1999) ['Action: 91%', 'Drama: 25%', 'Adventure: 13%']
The Others (2001) ['Drama: 76%', 'Horror: 65%', 'Action: 41%']
Alien: Resurrection (1997) ['Horror: 67%', 'Action: 64%', 'Drama: 43%']
The Martian (2015) ['Drama: 95%', 'Adventure: 81%']
考虑到每部电影并不总是具有3种类型,有时是2种,有时是1种。所以,就我所见,我应该在输出列表(即list)中找到3个最大值,2个最大值或1个最大值。 15种类型,例如
我预计的类型是[电影,冒险],然后
some_kind_of_function(outputs)应该给我输出
[1 0 0 0 0 0 0 0 0 0 0 1 0 0 0],
之后我可以将其与ground_truth进行比较。 我认为torchmax在这种情况下不起作用,因为它只提供[weigts array]的一个最大值,所以
实现它的最佳方法是什么?
在此先感谢您,感谢您的帮助或建议:)
答案 0 :(得分:1)
BinaryCrossEntropy(WithLogits)
是必经之路。