术语聚类库?

时间:2009-12-24 13:12:31

标签: text-processing information-retrieval text-mining text-analysis

有人知道一个开源\免费库,它会进行术语聚类吗?

谢谢, 参见Yaniv

5 个答案:

答案 0 :(得分:5)

Apache Mahout提供了聚类算法。

答案 1 :(得分:1)

结帐NLTK。有许多clustering模块可能适合您。

答案 2 :(得分:1)

WEKA提供了一整套用于文本处理和群集的工具。

答案 3 :(得分:0)

如果你在python中有NLTK,正如它的作者已经提到的那样,但是还有sklearn提供的不仅仅是聚类。 (Link会带您发送适用示例的文字)。

答案 4 :(得分:0)

Python Scikit learn有一些专用的text analysis包。此外,他们还拥有一套完整的聚类算法,包括K-meansAPMean shiftSpectral ClusteringHierarchical ClusteringDBSCAN算法(适当的) evaluation metrics)。这可能对您的术语聚类任务很有帮助。

链接到Scikit Learn latest video tutorial

链接到Scikit Learn Book