使用单词嵌入,我正在计算2个段落之间的相似距离,其中2个段落之间的距离是每个段落中2个单词,1的向量之间的欧式距离之和。 该总和的值越大,则2个相似文档越少-
在计算相似距离时如何为某些单词分配偏好/权重。
答案 0 :(得分:0)
这听起来像是您根据词间距离(即很多)临时改进了自己的段落间距离度量。
您是不是在每个单词之间的比较中随机选择单词,并做了很多工作来找出整体差异?
一种比什么都不做的幼稚测量方法是对段落中的所有单词求平均,以获得该段落的单个向量。可以想象,可以通过为每个单词分配一个权重来轻松地使单词超重,默认为1.0
(对于正常平均值),但是要给超重单词更大。
基于单词向量的另一种更为复杂的比较是“单词移动器的距离”-它实质上将每个单词视为“意义堆”,然后找到最小的成对“移动”以变换一个段落(作为袋子)字词)。 (它可以在Python gensim中以wmdistance()
的形式提供,以及其他库。)但是,计算起来要贵很多,尤其是作为文本字数的函数。