我的标签不平衡。也就是说,在二元分类器中,我有更多正面(1)数据和更少负面(0)数据。我使用分层K折叠交叉验证并将真正的负数视为零。你能不能让我知道我有什么选择可以获得真正负值的零值?
答案 0 :(得分:2)
处理不平衡类有很多策略。
首先,让我们了解(可能)发生了什么。您要求分类器最大限度地提高准确度:即正确分类的记录部分。例如,如果85%的记录属于A类,那么只需将所有内容标记为A类就可以获得85%的准确率。这似乎是分类器可以达到的最佳效果。
那么,你怎么能纠正这个?
1)您可以尝试在平衡的数据子集上训练您的模型。从多数类中随机抽样只有少数记录等于少数类中的记录。这将不允许您的分类器将所有内容标记为多数类。但它的代价是可用较少的信息来发现类边界的结构。
2)使用与准确度不同的优化指标。热门选择为AUC或F1 Score
3)使用方法1创建分类器集合。每个分类器将看到数据的子集并对类进行“投票”,可能具有一些置信度分数。这些分类器输出中的每一个都将是最终元分类器的特征(可能使用方法2构建)。这样您就可以访问所有可用信息。
这远不是一份详尽的解决方案清单。使用不平衡(或“倾斜”)数据集可能是一本完整的教科书。我建议阅读一些关于这个主题的论文。也许从here
开始