语义分割中的数据集拆分

时间:2020-05-04 15:44:16

标签: python dataset semantic-segmentation

我正在从事生物医学图像分割任务。我从医院获得的数据已分为训练集,验证集,测试集。但是我对分裂感到困惑。

数据由来自不同患者的图像组成,每个患者具有从3D图像中获取的2〜3个2D切片。对于一个患者,他或她的2到3片是相邻或彼此靠近,这意味着这些片只有很小的差异,而裸露者几乎看不到眼。将这2〜3个切片分为训练集,测试集和验证集。因此,训练集,测试集和验证集的比例接近1:1:1。

但是,我发现的医学图像数据集的划分主要基于患者。三组是不同患者的切片,而不是像医院一样将同一患者的切片分成三组。我举个例子。

示例

让i_j是第i个患者的第j个切片,而i_j和i_j + 1是相邻的切片。所有切片编号如下:

1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2

可能以医院的方式分裂:

训练: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 测试: 1_3 2_3 3_3 5_2

可能以我的方式分裂:

培训:1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 测试: 5_1 5_2

我认为,第一种方法是训练集,验证集和测试集实际上太相似了。这将使验证集和训练集的准确率更高,但是模型的泛化能力会更差。 那么哪种分割方法是正确的?还是都可以吗?

1 个答案:

答案 0 :(得分:1)

你的方式绝对是正确的方式。由于您指定的原因,医院的方法将导致大量过度拟合。