我想将我的不平衡数据集分为三组:训练,验证和测试集。 我希望拆分后可以保留班级比例。
一个显而易见的解决方案是使用Scikit-learns StratifiedShuffleSplit或StratifiedKfold两次,但这将导致三个中的两个不完全相同。
我看到了两种方法,一种是先进行80/20的拆分,然后第二次进行80/20的拆分,从而使总体拆分为64/16/20。那意味着我正在验证我的结果所用的数据少于将来看到的数据。它有其优点和缺点。
第二种可能性是先进行80/20分割,然后再进行75/25分割,这将根据需要导致60/20/20分割。但这是否引发了另一个问题,我违反了我不知道要进行两次不同分割的操作吗?
我试图写出这个问题,目的是使用LP解决这个问题,但是结果并不好-我不确定当一个系数是两个系数的比率时,该问题是否是LP问题?优化。
我试图在这里搜索Stats-Stackoverflow和DS-Stackoverflow,但是没有运气。
我很想听听您对上述问题的想法,也许我想得太多,但实际上没有实际意义吗?