分布时如何分割数据集

时间:2020-05-15 09:36:02

标签: python pytorch distributed

现在,我想将数据集分为两部分:训练集和验证集。我知道在单个GPU上,我可以使用采样器来做到这一点:

indices = list(range(len(train_data)))
train_loader = torch.utils.data.DataLoader(
      train_data, batch_size=args.batch_size,
      sampler=torch.utils.data.sampler.SubsetRandomSampler(indices[:split]),
      pin_memory=True, num_workers=2)

但是当我想使用torch.distributed进行并行训练时,我必须使用另一个采样器,即sampler = torch.utils.data.distributed.DistributedSampler(train_data)

那么我应该如何使用两个采样器,以便我可以划分数据集并同时分发它?

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

您可以在创建torch.utils.data.Dataset之前拆分torch.utils.data.DataLoader

像这样简单地使用torch.utils.data.random_split

train, validation =
    torch.utils.data.random_split(
        dataset, 
        (len(dataset)-val_length, val_length)
    )

这将为您提供两个单独的数据集,您可以根据需要将它们与数据加载器一起使用。