我计算了两个向量之间的余弦相似度。例如,每个向量可以包含x个元素V = {v[0], v[1], ...}
,例如{age, height, ...}
目前,我没有对每个元素进行规范化。换句话说,具有较高绝对值的元素在相似度计算中往往更重要。例如如果你有一个180厘米高,只有10岁的人,身高会影响相似性而不是年龄。
我正在考虑从wiki(http://en.wikipedia.org/wiki/Feature_scaling)借用的三种特征缩放变体:
- 重新缩放(减去最小值并除以范围)
- 标准化(减去平均值并除以标准差)
- 使用百分位数(获取特定元素的所有值的分布并计算绝对值所在的百分位数)
醇>
如果有人能够解释每个人的好处以及如何确定正确使用标准化的正确方法,那将会很有帮助。完成所有三个后,我得到的样本结果是:
none: 1.0
standardized: 0.963
scaled: 0.981
quantile: 0.878