cluster-analysis - SSVD用于降维+聚类

我已经通过mahout运行ssvd来应用LSA（潜在语义分析）。我有文本文档，每个文档包含许多功能（从100到2000术语）。我想在文档上使用LSA来获得与“概念”一起出现的顶级术语或短语。任何人都知道我该怎么做？实际上我应用了预处理过滤（标记化，停用词删除，词干，....），通过mahout创建tfidf，然后运行ssvd命令：bin / mahout ssvd -i termVectors / tfidf-vectors / part-r-00000 -no输出文件夹-c 200 -us true -U false -V false -t 1 -ow -pca true 我在mahout中使用clusterdump来解析结果，但是rsults中的所有术语都以字母“a *”开头，并不代表任何概念。是否有人在ssvd中体验到在群集之前减少功能？或者任何想法如何使用ssvd来显示文本语料库中的概念？

谢谢

SSVD用于降维+聚类

0 个答案: