机器学习库专门用于文档

时间:2014-09-12 09:27:48

标签: java machine-learning nlp document-classification

我正在做一个项目,我需要找到一个用java编写的专门用于文档分类的机器学习库。有人可以给我一些例子吗?

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

取决于您正在寻找的ML类型。

问题的语言部分(解析文档,提取实体等)可以显着改善结果,ML算法部分。 例如,对于后者,请查看Apache Mahout - 它还附带了文档分类的示例。特别是如果你打算处理大量数据。斯坦福分类器也是一个很好的选择。

答案 2 :(得分:0)

机器学习框架MALLET(http://mallet.cs.umass.edu/classification.php)和Weka(http://www.cs.waikato.ac.nz/ml/weka/)都可以进行文档分类。与Mahout或Spark相比,它们都很容易上手。