对于神经网络项目,我正在使用Pytorch并正在使用EMNIST数据集。
已经给定的代码加载到数据集中:
train_dataset = dsets.MNIST(root='./data',
train=True,
transform=transforms.ToTensor(),
download=True)
并准备:
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
batch_size=batch_size,
shuffle=True)
然后,在定义了网络的所有配置后,将出现一个for循环,用于按时期训练模型:
for i, (images, labels) in enumerate(train_loader):
在示例代码中,这可以正常工作。
对于我的任务,给了我一个如下加载的数据集:
emnist = scipy.io.loadmat("DIRECTORY/emnist-letters.mat")
data = emnist ['dataset']
X_train = data ['train'][0, 0]['images'][0, 0]
y_train = data ['train'][0, 0]['labels'][0, 0]
然后,我按如下所示创建train_dataset:
train_dataset = np.concatenate((X_train, y_train), axis = 1)
train_dataset = torch.from_numpy(train_dataset)
并使用相同的步骤进行准备:
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
batch_size=batch_size,
shuffle=True)
但是,当我尝试使用与以前相同的循环时:
for i, (images, labels) in enumerate(train_loader):
我收到以下错误:
ValueError: too many values to unpack (expected 2)
谁知道我该怎么做,以便可以使用此循环训练我的数据集?
答案 0 :(得分:1)
您从EMNIST数据创建的数据集是单个张量,因此,数据加载器还将生成单个张量,其中第一个维是批处理维。这将导致尝试在整个批次维度上解压缩该张量,这是行不通的,因为您的批次大小大于2,但这也不是您想要的。
您可以使用torch.utils.data.TensorDataset
轻松创建数据集,就像MNIST数据集一样,该图像集会生成图像元组及其各自的标签。
train_dataset = torch.utils.data.TensorDataset(torch.from_numpy(X_train), torch.from_numpy(y_train))