多类别分类 - 为每个类别使用不同的负样本集合的好主意?

时间:2014-08-28 15:15:52

标签: algorithm machine-learning classification

我们有一个分类器,可以将网站分为50个类别中的一个。

经典方法是构建50个两类分类器(如下所示:nlp)。有一个大标记学习语料库,我们使用其类别中的正样本和来自所有其他类别的负样本训练每个分类器。

完全解耦并为每个类别保留一组正阴性样本是不是一个好主意?

这将使我们:

  • 我们很容易收集并添加更多负面样本(我们只是随机网站)
  • 目前,添加第51个新类别是一个非常艰难的过程,因为较早的类别是很久以前训练的,所以新的第51个分类器会被具有与旧样本不同的时间属性的新样本混淆 - 并且刷新所有51个类别的另一个选择是非常昂贵的。如果我们将解耦,我们可以保留当前的50个分类器,只需添加一个新的分类器,带有新的正面和负面样本!

问题:你能看到这个想法有问题吗?如果是这样,你能指点我这方面的文学/研究吗?如果没有,那该错误在哪里?

谢谢!

1 个答案:

答案 0 :(得分:1)

如果您认为每个网站都属于50个类别中的一个,那么您最初的想法听起来会更好。但是,当你有那么多类别时,二元分类器并不总是最好的解决方案,因为你必须每个类别都使每个类别成为一个正类,所有其他类别都是负类(一个对所有类别),或者你采取所有对分类和训练每对的分类器。无论哪种方式,您都必须通过运行所有分类器来对结果进行后处理来确定测试点的类别。

有很好的分类器可以使用单个分类器处理任意数量的类别。随机森林是一个很好的例子,它们在实践中非常有效,特别是如果你的特征都是数字或符号,只有几个可能的值。而且他们可以快速训练和运行测试数据。