Mahout分类器v.OpenNLP Documentclassifier

时间:2013-10-28 15:46:02

标签: mahout opennlp

我正处于十字路口,我一直在使用Mahout对某些文档进行分类,并且偶然发现了OpenNLP文档分类器。

他们似乎做了非常相似的事情,我无法弄清楚它是否值得转换我目前用mahout编写的内容,而是提供OpenNLP实现。

对于文档分类,mahout对OpenNLP有一些明显的优势吗?

我的情况是我有几十篇新闻文章,我只想提取它们的一部分。 Mahout做得相当好, - 我使用Naive Bayes进行计算,然后使用TF-IDF来确定文档属于哪个类别。当找到新文章时,模型会更新,因此模型会随着时间的推移不断改进。

似乎OpenNLP文档分类器做了非常相似的事情(虽然我还没有测试它的准确度)。 - 有没有人有使用这两者的经验,谁可以说是分歧为什么会在另一个之上使用?

1 个答案:

答案 0 :(得分:1)

我对这两者没有经验,但在试图弄清楚其中一个是否会对个人项目产生影响时,我偶然发现了这个博客,并引用:

  

使用OpenNLP进行数据分类是另一种方法,与mahout相比,具有更高的准确性和性能。

您可以查看博文here