python - 如何处理高度不平衡的Issue（Text）分类数据集？ - Thinbug

如何处理高度不平衡的Issue（Text）分类数据集？

时间：2019-11-04 15:03:07

标签： python machine-learning nlp

数据集的大小：81256，班级：200，每个类别的范围从特定类别下的2757到特定类别下的低至10不等。如何平衡此数据集以及应使用哪种类型的算法来训练模型。现在，我已经使用random over sampler进行采样，并使用Linear SVC来训练模型。

1 个答案:

答案 0 :(得分：1)

这是一个非常笼统的问题，但是一些处理文本中不平衡数据（不仅是）的方法是：

收集更多数据
少数民族样本过采样
欠采样多数类
通过反向翻译进行加法：使用某种翻译API（Google翻译），将您的文本翻译成另一种语言，然后将翻译后的文本翻译回原始语言
通过同义词扩展：用其同义词替换文本中的某些单词
使用不需要大量数据进行微调的预训练模型（BERT，GTP-2）