应用错误收集

我想将我的不平衡数据集分为三组：训练，验证和测试集。我希望拆分后可以保留班级比例。

一个显而易见的解决方案是使用Scikit-learns StratifiedShuffleSplit或StratifiedKfold两次，但这将导致三个中的两个不完全相同。

我看到了两种方法，一种是先进行80/20的拆分，然后第二次进行80/20的拆分，从而使总体拆分为64/16/20。那意味着我正在验证我的结果所用的数据少于将来看到的数据。它有其优点和缺点。

第二种可能性是先进行80/20分割，然后再进行75/25分割，这将根据需要导致60/20/20分割。但这是否引发了另一个问题，我违反了我不知道要进行两次不同分割的操作吗？

我试图写出这个问题，目的是使用LP解决这个问题，但是结果并不好-我不确定当一个系数是两个系数的比率时，该问题是否是LP问题？优化。

我试图在这里搜索Stats-Stackoverflow和DS-Stackoverflow，但是没有运气。

我很想听听您对上述问题的想法，也许我想得太多，但实际上没有实际意义吗？