我试图计算两个二元组之间的语义相似度,我需要使用fasttext的预训练单词向量来完成这项任务。
例如:
b-gram是两个元素的python列表:
[his, name]
和[I, am]
它们是两个元组,我需要以任何必要的方式计算这两个元组之间的相似性。
我希望有一个分数可以给我一个很好的相似性近似值。
对于前 - 如果有方法可以告诉我[His, name]
与[I, am]
更相似而不是[An, apple]
。
现在我只使用余弦相似性,其中包含任何语义相似性。
答案 0 :(得分:1)
如果您首先在二元组中平均两个单词向量,则余弦相似性可能很有用。所以你想把矢量用于他的'和' name',将它们平均为一个向量。然后把矢量用于'我'而且' am'并将它们平均为一个向量。最后,计算两个结果向量的余弦相似度,它应该给你一个粗略的语义相似性。