我有两组短消息,我想计算这两组短消息之间的相似度,并根据它们的语义相似度来确定它们是否在谈论相同的子主题。我知道如何使用成对相似性,但我的问题是要计算两个集合中所有句子之间的整体相似度,而不是针对2个句子。有没有办法使用tf-idf或word2vec / doc2vec和余弦相似度来计算总分?
答案 0 :(得分:1)
基本上我所做的是取每个句子中每个单词的向量。
然后取两个向量的平均值,并进行余弦相似度。
当然,在您这样做之前,您需要一个训练有素的word2vec模型。 doc2vec的相似之处在做相同的事情,因为它内部保留了word2vec模型。
因此,您有两个选择,可以训练doc2vec并以相似的方式使用它的构建,也可以训练word2vec自己完成工作。
答案 1 :(得分:-1)
Infersent 有助于发现语义相似性