我们有一个分类器,可以将网站分为50个类别中的一个。
经典方法是构建50个两类分类器(如下所示:nlp)。有一个单大标记学习语料库,我们使用其类别中的正样本和来自所有其他类别的负样本训练每个分类器。
完全解耦并为每个类别保留一组正和阴性样本是不是一个好主意?
这将使我们:
问题:你能看到这个想法有问题吗?如果是这样,你能指点我这方面的文学/研究吗?如果没有,那该错误在哪里?
谢谢!
答案 0 :(得分:1)
如果您认为每个网站都属于50个类别中的一个,那么您最初的想法听起来会更好。但是,当你有那么多类别时,二元分类器并不总是最好的解决方案,因为你必须每个类别都使每个类别成为一个正类,所有其他类别都是负类(一个对所有类别),或者你采取所有对分类和训练每对的分类器。无论哪种方式,您都必须通过运行所有分类器来对结果进行后处理来确定测试点的类别。
有很好的分类器可以使用单个分类器处理任意数量的类别。随机森林是一个很好的例子,它们在实践中非常有效,特别是如果你的特征都是数字或符号,只有几个可能的值。而且他们可以快速训练和运行测试数据。