如何计算两个n-gram之间的语义相似度?

时间:2017-12-03 12:11:06

标签: python fasttext sentence-similarity

我试图计算两个二元组之间的语义相似度,我需要使用fasttext的预训练单词向量来完成这项任务。

例如:

b-gram是两个元素的python列表: [his, name][I, am]

它们是两个元组,我需要以任何必要的方式计算这两个元组之间的相似性。

我希望有一个分数可以给我一个很好的相似性近似值。 对于前 - 如果有方法可以告诉我[His, name][I, am]更相似而不是[An, apple]

现在我只使用余弦相似性,其中包含任何语义相似性。

1 个答案:

答案 0 :(得分:1)

如果您首先在二元组中平均两个单词向量,则余弦相似性可能很有用。所以你想把矢量用于他的'和' name',将它们平均为一个向量。然后把矢量用于'我'而且' am'并将它们平均为一个向量。最后,计算两个结果向量的余弦相似度,它应该给你一个粗略的语义相似性。