我有一个二进制分类问题,在标签0和1(少数)中存在巨大的不平衡。因为测试集带有标签1的行太少,所以我对火车进行至少70-30或60-40的测试,因此仍然存在大量观察结果。由于我没有在准确性(由于班级失衡)上进行过多的衡量,而在“精确召回”方面做得更多,因此这一点尤为重要,因为“真实肯定”中的一些差异很明显。
在Python / sklearn中是否存在KFold(或交叉验证方法)的变体,我选择K = 5,并将拆分设置为60-40?就像下面的图片一样:
答案 0 :(得分:0)
您需要分层抽样来解决不平衡问题。 这是sklearn为您提供的URL:结合了Kfold和分层采样/拆分
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html