标签: python machine-learning nlp
数据集的大小:81256, 班级:200, 每个类别的范围从特定类别下的2757到特定类别下的低至10不等。 如何平衡此数据集以及应使用哪种类型的算法来训练模型。 现在,我已经使用random over sampler进行采样,并使用Linear SVC来训练模型。
答案 0 :(得分:1)
这是一个非常笼统的问题,但是一些处理文本中不平衡数据(不仅是)的方法是: