如何使用分层采样将数据集拆分为大小分别为原始数据集的75%和25%的训练和测试集,以便保留这些新集中的比例类大小。我想用WEKA做这件事。
" RemovePercentage"过滤器有助于不按分层方式进行,并且" StratifiedRemoveFolds"过滤器不会使用百分比来执行此操作。
我将不胜感激任何帮助或建议。
答案 0 :(得分:0)
因此,作为解决方法,我使用stratifiedRemoveFolds将数据集拆分为两个。在这种情况下,我的折叠数为2,产生50%-50%的数据集。然后,我使用相同的方法将其中一个折叠分成两个,产生原始数据集的25%-25%子集。然后我将25%的数据集中的一个合并到左边超过50%,产生了75%-25%的分层分割 - 这是我的目标。