我是Pytorch和CNN的新手。我对数据预处理感到困惑。不确定如何进行转换。对数据集进行归一化(实质上是如何为自定义数据集计算均值和标准差v?)
我正在使用ImageFolder加载数据。图片的大小不同。
p::companies
答案 0 :(得分:3)
如果您打算从头开始训练网络,则可以计算数据集的统计信息。数据集的统计信息是预先计算的。您可以使用ImageFolder
遍历图像以计算数据集统计信息。例如,伪代码-
for inputs, labels in dataloaders:
# Calculate mean and std dev
# save for later processing
通常,使用其他较大的数据集(例如Imagenet)对CNN进行预训练,主要是为了减少训练时间。如果您使用的是预先训练的网络,则可以使用原始数据集的均值和标准差进行训练。