基于共生矩阵计算文档相似度

时间:2018-09-02 09:34:30

标签: matrix nlp linguistics

我大约有2000个文档(包含芬兰语句子),并且为每个文档创建了一个单词-单词共现矩阵。总共约有这些文档中有6000个不同的词(项目),因此每个共现矩阵为6000 x 6000,矩阵中的值表示两项同时出现的次数(在+/- 5个词的窗口中)。因此,矩阵是稀疏的。

我的目标是(i)根据这些矩阵确定文档之间的相似性,以及(ii)通过聚类分析将文档分类为聚类。但是,我不确定如何解决这个问题。非常感谢您对如何入门的任何想法。

0 个答案:

没有答案