使用word2vev的句子相似度

时间:2019-08-08 17:12:27

标签: nlp word2vec similarity

我基本上想要知道的是特定句子/文档与我的训练语料库有多相似。

我想我可能对如何解决这个问题有一半的想法,但是我不太确定。 所以我的想法是计算文档的平均向量,然后以某种方式计算相似度。我只是不知道该如何计算相似度。

所以说我有一个训练语料库,里面有关于狗的文字。如果然后我要检查“飞机有100个座位”这句话与我想要的训练语料有多相似,则输出相似度较低。

1 个答案:

答案 0 :(得分:0)

这是一个语义上的文本相似性问题。您可以在https://nlpprogress.com/english/semantic_textual_similarity.html

上查看最新模型

通常,您将文档传递到编码器中以创建表示形式(文档嵌入),然后对句子进行相同操作(通常使用相同的编码器)。可以将向量馈入其他层以进行进一步处理。然后可以在向量(嵌入)上使用类似余弦的相似性度量,或将联合最终表示形式用于分类。

您可以在编码步骤中使用一些经过预训练的语言模型,并针对您的用例进行微调。