使用单词嵌入查找具有特定权重的某些单词的文档之间的相似性

时间:2018-07-22 08:49:46

标签: python-3.x nlp similarity word2vec

使用单词嵌入,我正在计算2个段落之间的相似距离,其中2个段落之间的距离是每个段落中2个单词,1的向量之间的欧式距离之和。 该总和的值越大,则2个相似文档越少-

在计算相似距离时如何为某些单词分配偏好/权重。

1 个答案:

答案 0 :(得分:0)

这听起来像是您根据词间距离(即很多)临时改进了自己的段落间距离度量。

您是不是在每个单词之间的比较中随机选择单词,并做了很多工作来找出整体差异?

一种比什么都不做的幼稚测量方法是对段落中的所有单词求平均,以获得该段落的单个向量。可以想象,可以通过为每个单词分配一个权重来轻松地使单词超重,默认为1.0(对于正常平均值),但是要给超重单词更大。

基于单词向量的另一种更为复杂的比较是“单词移动器的距离”-它实质上将每个单词视为“意义堆”,然后找到最小的成对“移动”以变换一个段落(作为袋子)字词)。 (它可以在Python gensim中以wmdistance()的形式提供,以及其他库。)但是,计算起来要贵很多,尤其是作为文本字数的函数。