为什么LP-Space规范化被用于Mahout VectorNormMapper以获得项目相似性。还读到2的标准幂对CosineSimilarity很有用。
是否有直观的解释为何使用它以及如何确定给定的相似性等级的最佳功率值。
答案 0 :(得分:1)
可以为任何L_p指标定义矢量规范。根据您正在处理的问题,不同的规范具有不同的属性。 p的常用值包括1和2,偶尔使用0。
Mahout中的某些相似性功能与特定规范密切相关。你的余弦相似性的例子很好。通过缩放两个矢量输入以使L_2长度= 1然后取点积来计算余弦相似度。如果矢量以笛卡尔空间表示,则该值等于矢量之间角度的余弦值。该值也是sqrt(1-d ^ 2),其中d是归一化向量之间差异的L_2范数。
这意味着余弦相似度与L_2距离之间存在密切联系。
这会回答你的问题吗?
这些问题可能会在Apache Mahout邮件列表上更快地得到解答,顺便说一句。