自动文档分类的最佳库

时间:2013-05-17 09:39:50

标签: nlp bayesian document-classification

问题:我们有一堆文件(杂志文章)需要放入“类别”。有些类别反映了文章的主题(文章的内容)和其他一些类别反映了文章的“性质”(如果杂志印在纸上,可能会出现这种情况)。

我们目前正在通过将文章发送到海外手动解决问题,并让人们查看并标记它们。

我们希望更多地自动化这个过程。我查看了各种库,但它们似乎并不是为解决这个问题而设计的。

Carrot²会对搜索结果进行聚类,但如果它可以与现有(固定)类别一起使用,或者它直接从每个输入中推断出类别,则不清楚,不进一步深入研究。

NLTK是一种通用的解决方案,可以做很多事情,但在速度或准确性方面没有声誉。可能是我最好的选择吗?

理想情况下,我希望找到一个解决方案,该解决方案给出了一个类别列表和一组分类文档,能够为新文档建议一个类别,并对其建议的准确性有信心。

如果这不存在,我可以尝试根据NLTK的NaiveBayesClassifier编写一些内容,但是还有哪些其他选项?

1 个答案:

答案 0 :(得分:3)

对于这个监督分类任务,我会使用Stanford Classifier。它嵌入了从特征提取(比词袋更复杂,更复杂)到顶尖机器学习(最大熵模型)的所有内容。如果您有足够的训练数据(即手动标记的文章),它的效果非常好。

唯一的问题是,每篇文章只会分配一个类。但由于你的两个“维度”(文章的主题和文章的类型)似乎是合理正交的,所以没有什么可以阻止你将这两个维度视为两个单独的分类问题。