给定文档集群,计算语料库与集群之间的相似性

时间:2018-06-18 22:06:03

标签: python pandas numpy nltk tf-idf

我正在通过计算语料库中的每个文档与群集之间的距离来进行相似性排名工作。群集也作为文档列表给出。我遇到的麻烦是我无法提出计算群集质心的正确方法,以便我可以计算相似度。我试图使用集群的tfidf矩阵的平均值,但结果不佳。

例如:我的群集是:

['Line a baking pan with a sheet of parchment paper.',
 'Line the cake pan with parchment paper.',
 'Line the bottom with parchment paper.',
 'Line a baking pan with parchment paper.'
]

我的courpus包含以下3个文件:

['Add vinegar and sugar.',
 'Remove pan from heat and let stand 5 minutes.',
 'Line the pan with parchment paper.'
]

我想计算每个文档和集群之间的相似性,这可能会产生如下结果:

[0.1, 0.1, 0.8]

你有什么建议吗?我尝试将聚类和语料库文档都表示为tfidf矩阵,但似乎很难通过计算两个矩阵之间的相似性来给出欲望结果。我尝试了LSI,但是我想要排名的语料库不是群集文件,它迫使我找到群集的质心代表。

1 个答案:

答案 0 :(得分:0)

FLAG_ACTIVITY_SINGLE_TOP | FLAG_ACTIVITY_CLEAR_TOP