应用错误收集

时间：2019-08-08 17:12:27

标签： nlp word2vec similarity

我基本上想要知道的是特定句子/文档与我的训练语料库有多相似。

我想我可能对如何解决这个问题有一半的想法，但是我不太确定。所以我的想法是计算文档的平均向量，然后以某种方式计算相似度。我只是不知道该如何计算相似度。

所以说我有一个训练语料库，里面有关于狗的文字。如果然后我要检查“飞机有100个座位”这句话与我想要的训练语料有多相似，则输出相似度较低。

答案 0 :(得分：0)

上查看最新模型

通常，您将文档传递到编码器中以创建表示形式（文档嵌入），然后对句子进行相同操作（通常使用相同的编码器）。可以将向量馈入其他层以进行进一步处理。然后可以在向量（嵌入）上使用类似余弦的相似性度量，或将联合最终表示形式用于分类。

您可以在编码步骤中使用一些经过预训练的语言模型，并针对您的用例进行微调。