应用错误收集

时间：2019-08-02 05:51:27

标签： nlp word2vec tf-idf cosine-similarity sentence-similarity

我有两组短消息，我想计算这两组短消息之间的相似度，并根据它们的语义相似度来确定它们是否在谈论相同的子主题。我知道如何使用成对相似性，但我的问题是要计算两个集合中所有句子之间的整体相似度，而不是针对2个句子。有没有办法使用tf-idf或word2vec / doc2vec和余弦相似度来计算总分？

答案 0 :(得分：1)

基本上我所做的是取每个句子中每个单词的向量。

然后取两个向量的平均值，并进行余弦相似度。

当然，在您这样做之前，您需要一个训练有素的word2vec模型。 doc2vec的相似之处在做相同的事情，因为它内部保留了word2vec模型。

因此，您有两个选择，可以训练doc2vec并以相似的方式使用它的构建，也可以训练word2vec自己完成工作。

答案 1 :(得分：-1)

Infersent 有助于发现语义相似性