应用错误收集

我正在从事生物医学图像分割任务。我从医院获得的数据已分为训练集，验证集，测试集。但是我对分裂感到困惑。

数据由来自不同患者的图像组成，每个患者具有从3D图像中获取的2〜3个2D切片。对于一个患者，他或她的2到3片是相邻或彼此靠近，这意味着这些片只有很小的差异，而裸露者几乎看不到眼。将这2〜3个切片分为训练集，测试集和验证集。因此，训练集，测试集和验证集的比例接近1：1：1。

但是，我发现的医学图像数据集的划分主要基于患者。三组是不同患者的切片，而不是像医院一样将同一患者的切片分成三组。我举个例子。

示例

让i_j是第i个患者的第j个切片，而i_j和i_j + 1是相邻的切片。所有切片编号如下：

1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2

可能以医院的方式分裂：

训练： 1_1 2_1 3_1 4_1 5_1 Val： 1_2 2_2 3_2 4_2 测试： 1_3 2_3 3_3 5_2

可能以我的方式分裂：

培训：1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val： 3_1 3_2 3_3 测试： 5_1 5_2

我认为，第一种方法是训练集，验证集和测试集实际上太相似了。这将使验证集和训练集的准确率更高，但是模型的泛化能力会更差。 那么哪种分割方法是正确的？还是都可以吗？