Question

我正在尝试使用多个数据集创建自定义Dataloader。

我的问题是，如果我在(shuffle = True)选项中使用Dataloader，是否可以将多个Dataloader的顺序重排？

例如：

dataloader1：label = [5 , 4, 15, 16]

dataloader2：label = [5 , 4, 15, 16]

Answer 1

编辑：Pytorch的数据加载器已经为此实现了解决方案。

请参见此处：https://pytorch.org/docs/stable/data.html#torch.utils.data.Sampler，您可以自己指定采样器。因此，您可以创建一个生成器并将其提供给所有数据加载器。

旧的（又有点笨拙）答案：

如果保持顺序确实很重要，则与其创建自定义数据加载器，不如创建自定义数据集。

请注意，只有在所有数据集具有相同数量的示例时才有可能。还是不使用较大数据集的部分数据。

这些行中的内容应该起作用：

class ManyDatasetsInOne(Dataset):
    def __init__(self, **parameters):
        self.dataset1 = dataset1(**parameters_1)
        self.dataset2 = dataset2(**parameters_2)

    def __len__(self):
        return len(self.dataset1)

    def __getitem__(self, index):

        data1 = load_item(idx, self.dataset1)
        data2 = load_item(idx, self.dataset1)

        return data1, data2

Pytorch Dataloader随机播放多个数据集

1 个答案: