计算句子集之间的语义相似度

时间:2019-08-02 05:51:27

标签: nlp word2vec tf-idf cosine-similarity sentence-similarity

我有两组短消息,我想计算这两组短消息之间的相似度,并根据它们的语义相似度来确定它们是否在谈论相同的子主题。我知道如何使用成对相似性,但我的问题是要计算两个集合中所有句子之间的整体相似度,而不是针对2个句子。有没有办法使用tf-idf或word2vec / doc2vec和余弦相似度来计算总分?

2 个答案:

答案 0 :(得分:1)

基本上我所做的是取每个句子中每个单词的向量。

然后取两个向量的平均值,并进行余弦相似度。

当然,在您这样做之前,您需要一个训练有素的word2vec模型。 doc2vec的相似之处在做相同的事情,因为它内部保留了word2vec模型。

因此,您有两个选择,可以训练doc2vec并以相似的方式使用它的构建,也可以训练word2vec自己完成工作。

答案 1 :(得分:-1)

Infersent 有助于发现语义相似性