如何处理分类中的低频示例?

时间:2013-07-12 15:30:33

标签: machine-learning classification

我正面临文本分类问题,我需要将示例分类为34个小组。

问题是,34组训练数据的大小不均衡。对于一些团体,我有2000多个例子,而对于一些人我只有100多个例子。

对于一些小团体,分类准确性非常高。我想那些群体可能有特定的关键词来识别和分类。虽然对某些人而言,准确性很低,而且预测总是适用于大群体。

我想知道如何处理“低频示例问题”。只需复制和复制小组数据工作吗?或者我需要选择培训数据并扩展和平衡数据大小?有什么建议吗?

1 个答案:

答案 0 :(得分:4)

正规化有时可以通过减少虚假相关的影响来帮助不平衡的类问题,但这取决于您的数据。一种解决方案是简单地对较小的类进行过采样,或者增加较小类中的数据点的权重以迫使分类器更多地关注它。

您可以通过搜索“类不平衡”问题找到更多高级技术。虽然没有为文本分类问题应用/创建它们的数量,但在处理文本问题时通常会有大量数据。所以我不确定在如此高维度的空间中有多少效果很好。