如何在PyTorch中为子集使用不同的数据增强

时间:2018-08-10 08:17:34

标签: python deep-learning pytorch data-augmentation

如何在PyTorch中为不同的${basedir}使用不同的数据增强(转换)?

例如:

Subset

train, test = torch.utils.data.random_split(dataset, [80000, 2000]) train将具有与test相同的变换。如何对这些子集使用自定义转换?

2 个答案:

答案 0 :(得分:1)

我当前的解决方案不是很好,但是可以工作:

dataset

基本上,我为一个拆分定义了一个新的数据集(它是原始数据集的副本),然后为每个拆分定义了一个自定义转换。

注意:from copy import copy train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size]) train_dataset.dataset = copy(full_dataset) test_dataset.dataset.transform = transforms.Compose([ transforms.Resize(img_resolution), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) train_dataset.dataset.transform = transforms.Compose([ transforms.RandomResizedCrop(img_resolution[0]), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) 有效,因为我使用的是train_dataset.dataset.transform数据集,该数据集使用ImageFolder属性来执行转换。

如果有人知道更好的解决方案,请与我们分享!

答案 1 :(得分:0)

这就是我使用的(取自here):

import torch
from torch.utils.data import Dataset, TensorDataset, random_split
from torchvision import transforms

class DatasetFromSubset(Dataset):
    def __init__(self, subset, transform=None):
        self.subset = subset
        self.transform = transform

    def __getitem__(self, index):
        x, y = self.subset[index]
        if self.transform:
            x = self.transform(x)
        return x, y

    def __len__(self):
        return len(self.subset)

这是一个例子:

init_dataset = TensorDataset(
    torch.randn(100, 3, 24, 24),
    torch.randint(0, 10, (100,))
)

lengths = [int(len(init_dataset)*0.8), int(len(init_dataset)*0.2)]
train_subset, test_subset = random_split(init_dataset, lengths)

train_dataset = DatasetFromSubset(
    train_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)
test_dataset = DatasetFromSubset(
    test_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)