Apache Mahout + Pearson Correlation忽略每个项目具有相同首选项的用户

时间:2011-10-14 20:22:58

标签: mahout pearson

我正在使用Maout与Pearson Correlation算法根据他们对多个项目的偏好来比较和查找类似用户。我遇到的问题是Mahout和/或Pearson忽略了为每个项目选择相同偏好的用户。有没有人知道是否有办法配置Mahout,不要忽略为每个项目选择相同偏好值的人。

1 个答案:

答案 0 :(得分:6)

这不是配置问题。在这种情况下,Pearson相关性是未定义的,因此使用此度量标准之间不能计算它们之间的相似性。

基本上 - Pearson是两个偏好序列'协方差与其标准差的乘积之比。但当一个或两个序列相同时,标准偏差为0,协方差也是如此,因此相关系数为0/0。

(这个和其他一些Pearson陷阱在Mahout in Action的第4章中有所涉及,我是本书和代码的这一部分的作者。)