哪个是最好的文档集群开源包?

时间:2011-10-13 10:30:01

标签: nlp machine-learning cluster-analysis

哪种开源软件包最适合群集大量文档?它应该自己决定聚类的数量,或者也可以接受它作为参数。

我们有大量文档并不真正围绕特定主题 - 它们是销售和管理人员在组织中的各种项目和客户端生成的文档。我知道拥有这样一个扩散语料库会降低性能,但我们正试图以最好的方式生活。现在,我们能得到的最好的是: - )

1 个答案:

答案 0 :(得分:4)

来自该领域专家主页的主题建模软件列表: http://www.cs.princeton.edu/~blei/topicmodeling.html

竞争领导小组(使用开源代码):http://nlp.stanford.edu/software/tmt/tmt-0.3/

另一个开源java项目: http://mallet.cs.umass.edu/topics.php