我基本上想要知道的是特定句子/文档与我的训练语料库有多相似。
我想我可能对如何解决这个问题有一半的想法,但是我不太确定。 所以我的想法是计算文档的平均向量,然后以某种方式计算相似度。我只是不知道该如何计算相似度。
所以说我有一个训练语料库,里面有关于狗的文字。如果然后我要检查“飞机有100个座位”这句话与我想要的训练语料有多相似,则输出相似度较低。
答案 0 :(得分:0)
这是一个语义上的文本相似性问题。您可以在https://nlpprogress.com/english/semantic_textual_similarity.html
上查看最新模型通常,您将文档传递到编码器中以创建表示形式(文档嵌入),然后对句子进行相同操作(通常使用相同的编码器)。可以将向量馈入其他层以进行进一步处理。然后可以在向量(嵌入)上使用类似余弦的相似性度量,或将联合最终表示形式用于分类。
您可以在编码步骤中使用一些经过预训练的语言模型,并针对您的用例进行微调。