我知道,原始的余弦相似度,当应用于按特定单词的频率表示两个文档时,不会测量单词顺序。我现在看到一大堆论文将余弦相似性应用于由词向量形成的句子对的表示。我假设它们将每个句子的令牌#x嵌入长度矩阵展平为长矢量,其长度是原始句子的标记#x嵌入长度。因此,“我爱你”和“你爱我(归一化为”我)在这种应用余弦相似性的新方式中不会产生1,而旧的方式会产生1.我是否正确?感谢任何有启发性的答案。
答案 0 :(得分:1)
完全!
"我爱你"并且"你爱我(标准化为"我")在这种应用余弦相似性的新方法中不会产生1,而旧方法将产生1。
完成了这项修改:
对句子略作修改 表示。而不是使用文本集合中的索引单词,一组单词 出现在句子对中的用作特征集。这样做是为了减少 句子表示中的数据稀疏程度
标准TF-IDF相似性 (simTFIDF,vector)定义为两个向量表示之间的余弦相似度 句子。
您可以阅读更多here