你能建议我用一个好的Java库来用Vector Space Model进行文本分类吗?

时间:2010-06-04 22:10:19

标签: java text classification

我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离。

我想使用该距离使用k-Nearest-Neighbor方法对一些新文档进行分类。

您对我可以使用的库有什么建议吗?

到目前为止,我看到Weka和Apache Lucene都应该支持向量空间模型,您认为哪一个最适合我的需求?

1 个答案:

答案 0 :(得分:1)

Weka和Lucene是两种不同的方法。

Weka是用于机器学习的通用工具箱。如果你想构建一个灵活的机器学习系统,并且你有时间/精力,并且你希望能够进行任何类型的更改,并且微调参数,并且规模不是问题那么Weka是一个不错的选择

Lucene是专门针对文本的,如果你想拥有一个可以轻松处理文本,搜索类似文档和处理大量数据的快速解决方案,你应该选择它。这并不意味着Lucene处于劣势,当我们提到文本时恰恰相反。所以为了轻松实现一个kNN,我会选择Lucene(祝你好运 - kNN有N ^ 2的复杂性)。