文本分类:可数据文本分类与多类文本分类

时间:2016-03-02 02:31:03

标签: machine-learning text-classification multilabel-classification

我对处理多标签分类问题的方法有疑问。

根据文献综述,我发现一种最常用的方法是问题转换方法。它将多标签问题转换为许多单标签问题,分类结果只是每个单标签分类器的简单联合,使用二进制相关方法。

由于单个标签问题可以被分类为二元分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签> 2),那么当前的转换方法似乎都将多标签问题转化为一些二进制问题。但这会导致数据不平衡问题,因为负面类可能比正面类有更多的文档。

所以我的问题是,为什么不转换为多个多类问题,然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个训练的单标签多类分类器将预测是否分配标签,并且所有这样的单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

总之,与将多标签分类问题转换为多个二元分类问题相比,将多标记分类问题转换为多个分类问题可以避免数据不平衡问题。除此之外,上述两种方法的一切都保持不变:你需要构造| L |(| L |表示分类问题中不同标签的总数)单个标签(二进制或多类)分类器,你需要准备| L |一组训练数据和测试数据,您需要在测试文档上测试每个单个标签分类器,并且每个单个标签分类器的预测结果的并集是测试文档的最终标签集。

希望有人能帮助澄清我的困惑,非常感谢!

1 个答案:

答案 0 :(得分:3)

您所描述的是一种称为标签电源集转换策略的多类问题的已知转换策略。

这种方法的缺点:

  • LP转换可能导致最多2 ^ | L |改造 标签。
  • 班级不平衡问题。

参考: Cherman,Everton Alvares,Maria Carolina Monard和Jean Metz。 "多标签问题转换方法:案例研究。" CLEI Electronic Journal 14.1(2011):4-4。