我正在做一个项目,我需要找到一个用java编写的专门用于文档分类的机器学习库。有人可以给我一些例子吗?
答案 0 :(得分:1)
这是两个着名的Java库
斯坦福核心NLP - http://nlp.stanford.edu/software/classifier.shtml
GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.html,https://gate.ac.uk/sale/tao/splitch19.html#chap:ml
答案 1 :(得分:1)
取决于您正在寻找的ML类型。
问题的语言部分(解析文档,提取实体等)可以显着改善结果,ML算法部分。 例如,对于后者,请查看Apache Mahout - 它还附带了文档分类的示例。特别是如果你打算处理大量数据。斯坦福分类器也是一个很好的选择。
答案 2 :(得分:0)
机器学习框架MALLET(http://mallet.cs.umass.edu/classification.php)和Weka(http://www.cs.waikato.ac.nz/ml/weka/)都可以进行文档分类。与Mahout或Spark相比,它们都很容易上手。