为什么我的DataLoader比for循环要慢得多?

时间:2019-05-12 16:14:16

标签: python pytorch

我正在为MNIST数据集编写基于神经网络的分类器。我首先尝试使用针对时期和批次的循环和索引来手动加载数据。在一个教程中,我看到有人使用torch.utils.data.DataLoader来完成此确切任务,因此我将代码更改为使用DataLoader。这导致学习过程的持续时间出现重大差异。

我尝试通过使用基准缩小范围来解决此问题。我一直以CPU(i7 8700k)和GPU(1080ti)为基准,数据存储在我的ssd(970 evo)中。

我首先尝试比较带和不带DataLoader的批处理梯度下降,然后比较带和不带DataLoader的微型批处理梯度下降。结果令我感到困惑。

|                 | BGD         | BGD with DL | MB-GD       | MB-GD with DL |
|-----------------|-------------|-------------|-------------|---------------|
| Time on CPU     | 00:00:56.70 | 00:05:59.31 | 00:01:31.29 | 00:07:46.56   |
| Accuracy on CPU | 82.47       | 33.44       | 94.84       | 87.67         |
| Time on GPU     | 00:00:15.89 | 00:05:41.79 | 00:00:17.48 | 00:05:37.33   |
| Accuracy on GPU | 82.3        | 30.66       | 94.88       | 87.74         |
| Batch Size      | M           | M           | 500         | 500           |
| Epoch           | 100         | 100         | 100         | 100           |

这是使用DataLoader的代码,精简为要点。

num_epoch = 100
train_loader = DataLoader(batch_size=500, shuffle=False, dataset=dataset_train)

for epoch in range(num_epoch):
    for i, (images, labels) in enumerate(train_loader):
        images = images.view(-1, 28 * 28)
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

使用循环对比代码

num_epoch = 100
batch_size = 500
num_batch = int(len(dataset_train) / batch_size)

for epoch in range(num_epoch):
    for batch_idx in range(num_batch):
        images = dataset_train.data[batch_idx*batch_size:(batch_idx+1)*batch_size].view(-1, 28 * 28)
        labels = dataset_train.targets[batch_idx*batch_size:(batch_idx+1)*batch_size]
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

我希望DataLoader在时间和性能方面至少能达到接近循环的水平,但不会慢10倍。我也很困惑为什么DataLoader影响模型的准确性。

我使用DataLoader是错误的,还是这只是错误的用例,而循环更适合我的工作?

编辑:这是两个小提琴,其中包含loopdataloader变体的完整代码

编辑:我相信我可能已经弄清楚了如何解决我的主要问题,即数据加载器和循环之间的性能差异。通过将加载程序的num_workers参数设置为8,我设法将GPU上的带有DL的微型批处理的时间缩短到1分钟左右。尽管这绝对比5分钟要好,但考虑到GPU上带有DL的minibatch与CPU上带有循环的minibatch的性能相当,这仍然很糟糕。

1 个答案:

答案 0 :(得分:0)

transforms.ToTensor()PIL Image范围内的np.ndarray[0, 255]作为输入,如果满足,则将其转换为torch.FloatTensor范围内的[0.0, 1.0] np.ndarray具有dtype=np.uint8PIL Image属于模式(L, LA, P, I, F, RGB, YCbCr, RGBA, CMYK, 1) docs

之一

重新缩放和更改数据类型会影响模型的准确性。另外,DataLoader比循环执行更多的操作,因此计时上的差异。

P.S。进行小批量训练时,您应洗牌训练数据