为潜在语义分析选择合适的聚类方法

时间:2015-06-19 02:48:20

标签: cluster-analysis latent-semantic-indexing latent-semantic-analysis

我想聚集一些文本文档以找到具有相同概念的文档。我使用潜在语义分析(LSA)完成了语义相似性,但我混淆了我应该为我的目的选择的聚类方法。 谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用分层聚类。在R中有一个名为RClusterpp的包,它对于大数据的层次聚类非常有效(它进行并行计算)。然后,您可以在可能的范围内剪切不同数量的聚类的树状图树,并使用交叉表检查聚类配置文件。