网页的二进制分类

时间:2012-01-13 09:14:44

标签: java machine-learning classification

我们感兴趣的是对网络上存在的网页进行二进制分类,例如电子商务与非电子商务。

目前,我们正在使用具有朴素贝叶斯算法的Mahout库。我们正在根据现有的分类网址和功能集创建培训数据。

执行此任务的准确性最佳方法是什么?

我在算法,库(可与JAVA一起使用)或任何有助于此类分类的更好的想法方面需要帮助。

提前致谢。

3 个答案:

答案 0 :(得分:3)

这个问题非常笼统,所以我只能添加一般信息。

提高分类质量的方法是(按重要性排序):

  • 使用Lemmatisation和/或Stemming仅使用基本单词形式
  • 实施字词过滤以删除无用的字词
  • 为不同语言训练单独的分类器

答案 1 :(得分:1)

您可以尝试使用一些现有的,经过良好调整的程序,......

CRM411旨在成为垃圾邮件过滤器,但它足够通用,可以满足您的需求。人们用它来分类简历和东西。它有很多引擎(HMM,SVM,CLUMP,Bayes等)。试一试。

答案 2 :(得分:0)

This one是关于NB分类器的算法的一个很好的演示。

丢弃最常见的单词会带来更好的预测。 IDF可以成为过滤掉这些词语的好工具。另请参阅Wikipedia