标签: java machine-learning classification
我们感兴趣的是对网络上存在的网页进行二进制分类,例如电子商务与非电子商务。
目前,我们正在使用具有朴素贝叶斯算法的Mahout库。我们正在根据现有的分类网址和功能集创建培训数据。
执行此任务的准确性最佳方法是什么?
我在算法,库(可与JAVA一起使用)或任何有助于此类分类的更好的想法方面需要帮助。
提前致谢。
答案 0 :(得分:3)
这个问题非常笼统,所以我只能添加一般信息。
提高分类质量的方法是(按重要性排序):
答案 1 :(得分:1)
您可以尝试使用一些现有的,经过良好调整的程序,......
CRM411旨在成为垃圾邮件过滤器,但它足够通用,可以满足您的需求。人们用它来分类简历和东西。它有很多引擎(HMM,SVM,CLUMP,Bayes等)。试一试。
答案 2 :(得分:0)
This one是关于NB分类器的算法的一个很好的演示。
丢弃最常见的单词会带来更好的预测。 IDF可以成为过滤掉这些词语的好工具。另请参阅Wikipedia。