给定一个单词嵌入向量列表,我试图计算一个平均单词嵌入,其中一些单词比其他单词更有意义。换句话说,我想计算一个语义加权的单词嵌入。
我找到的所有东西都只是找到平均向量(当然这非常简单),它代表了列表的平均含义或文档表示的某种加权平均值,但这不是我想要的
例如,给定['sunglasses', 'jeans', 'hats']
的单词向量,我想计算这样一个向量,它表示那些单词的语义,但'sunglasses'
具有更大的语义影响。因此,在比较相似度时,单词'glasses'
应该比列表'pants'
更相似。
我希望这个问题很清楚,非常感谢你!
答案 0 :(得分:1)
实际上,字向量的平均可以通过两种方式完成
没有tfidf权重的单词向量的平均值。
Word向量的平均值乘以tfidf权重。
这将解决您的重要性问题。