朴素贝叶斯分类器在Mahout中对网站分类的适用性

时间:2011-11-02 10:44:42

标签: bayesian mahout classification

我目前正在开发一个需要对网站进行数据库分类的项目(例如cnn.com = news)。我们只需要广泛的分类 - 我们不需要单独分类的每个URL。我们正在和这些数据库的常见供应商交谈,但我们已经回复的大多数报价非常昂贵,而且往往会产生令人讨厌的要求 - 比如必须使用他们的SDK来查询数据库。

与此同时,我也一直在探索自己构建这样一个数据库的可能性。我意识到这不是一个5分钟的工作,所以我正在做大量的研究。

通过阅读有关该主题的各种论文,似乎Naive Bayes分类器通常是这样做的标准方法。然而,许多论文建议增强以提高其在Web分类中的准确性 - 通常通过利用其他上下文信息,例如超链接,标题标签,多词短语,URL,词频等。

我一直在尝试使用Mahout的Naive Bayes分类器来对抗20个新闻组的测试数据集,我可以看到它对网站分类的适用性,但我担心它的用例准确性。

是否有人知道在Mahout中扩展贝叶斯分类器以考虑其他属性的可行性?关于从哪里开始的任何指示都将非常感激。

或者,如果我正在咆哮完全错误的树,请告诉我!

1 个答案:

答案 0 :(得分:0)

您可以根据需要控制输入。最后,输入只是一个特征向量。特征向量的特征可以是单词或双字母 - 但它们也可以是您想要的任何东西。所以,是的,您可以根据需要修改输入来注入新功能。

如何最好地编织这些功能完全是另一个主题 - 没有一种方法可以将它们转换为数字。 Mahout in Action很好地涵盖了FWIW。