两个语义向量与COLT之间的相似性度量

时间:2011-04-14 15:22:57

标签: math vector cosine colt

我正在使用传播激活来获取给定的概念。

如果我想计算'伦敦'和'巴黎'之间的相似度,我会得到2个向量,例如:

vector for 'Paris':
Paris : 1.0
City : 0.9
Capital : 0.7
France : 0.6
Europe : 0.5
...

vector for 'London':
London : 1.0
City : 0.9
England : 0.9
United Kingdom : 0.8
Europe : 0.5
...

问题是矢量可以有不同的长度。在这种情况下可以使用什么相似性度量? 据我所知,余弦测量只能应用于具有相同大小的矢量。

我找到了这些包裹: SimMetrics:http://staffwww.dcs.shef.ac.uk/people/S.Chapman/simmetrics.html 和COLT:http://nlp.stanford.edu/nlp/javadoc/colt-docs/overview-summary.html

如何在我的场景中使用它们?

谢谢! Mulone

1 个答案:

答案 0 :(得分:0)

您可以将所有未分配的值默认为0以获取匹配的向量,然后使用您选择的任何距离度量。但是,您可能希望通过某种方式对不同的属性进行加权,因为有些可能是比其他属性更好的相关指示符。

另外,伦敦的“欧洲”比巴黎更重要的是什么?