SSVD用于降维+聚类

时间:2015-04-02 12:42:59

标签: cluster-analysis mahout dimension-reduction

我已经通过mahout运行ssvd来应用LSA(潜在语义分析)。我有文本文档,每个文档包含许多功能(从100到2000术语)。 我想在文档上使用LSA来获得与“概念”一起出现的顶级术语或短语。任何人都知道我该怎么做? 实际上我应用了预处理过滤(标记化,停用词删除,词干,....),通过mahout创建tfidf,然后运行ssvd命令:bin / mahout ssvd -i termVectors / tfidf-vectors / part-r-00000 -no输出文件夹-c 200 -us true -U false -V false -t 1 -ow -pca true 我在mahout中使用clusterdump来解析结果,但是rsults中的所有术语都以字母“a *”开头,并不代表任何概念。 是否有人在ssvd中体验到在群集之前减少功能?或者任何想法如何使用ssvd来显示文本语料库中的概念?

谢谢

0 个答案:

没有答案