我想基于它们的语义相似性来聚类单词。目前,我有一个包含检测到的名词短语的文档列表。我想在文档中从这些获得的名词中创建聚类,并在语义上无监督地聚类它们?
我看过wordnet和gensim库。有什么建议可以真正帮助根据语义相似性获得所需的词集?
答案 0 :(得分:1)
对于基于短语共现的相似性(文档中更常出现的短语会更相似),您可以使用gensim。
在那里查看潜在语义分析和潜在Dirichlet分配:http://radimrehurek.com/gensim/tut2.html#available-transformations
根据您希望群集的确切要求,您可以直接将LSI / LDA主题用作群集。或者将获得的潜在短语向量等聚类。