文档相似性的不同方法(LDA,LSA,余弦)

时间:2017-01-05 20:38:24

标签: text similarity lda cosine lsa

我有一套简短的文件(每个1或2个段落)。我使用了三种不同的文档相似度方法: - tfidf矩阵上的简单余弦相似性 - 在整个语料库上应用LDA,然后使用LDA模型为每个文档创建向量,然后我应用余弦相似性。 - 在整个语料库上应用LSA,然后使用LSA模型为每个文档创建向量,然后我应用余弦相似度。

基于实验,我在没有任何LDA或LSA的tfidf矩阵上得到更好的简单余弦相似结果。基于我读到的LDA或LSA应该改善结果,但在我的情况下它不是! 有没有想过为什么LDA或LSA会有更差的结果? LDA和LSA在训练超过1000轮时发现一些文件之间的相似性,概率高于90%,完全不相关!

这有什么理由吗?

由于

1 个答案:

答案 0 :(得分:0)

我使用LDA4j实现并获得比TFIDF更好的结果,同样对于LSI我使用semantic-vector实现。如果您有自己的实现共享模型草图。还需要进一步规范语料库以获得更好的结果。