Pearson在Apache Mahout中的系数背后的动机是什么?

时间:2012-03-20 05:28:18

标签: math statistics mahout pearson

这个问题与Apache Mahout的建议部分有关,使用Pearson系数来衡量用户之间的相似性。根据我的理解,以下是Pearson系数如何衡量用户之间的相似性。

假设2个用户对5个项目a,b,c,d和e进行评分。假设它们的等级是a1,b1,c1,d1,e1和a2,b2,c2,d2,e2。现在,Pearson系数给出了考虑点(a1,a2),(b1,b2),(c1,c2),(d1,d2)和(e1,e2)的最小二乘直线拟合的估计。我理解这样做的主要目的(根据我在其他地方的阅读)是你想要表示能够根据当前用户的评级预测任何对象的其他用户评级的准确性。现在,如果点位于直线上,则意味着您可以根据当前用户的评级来预测其他人的评分。因此,系数将为1.另一方面,如果点不在直线上,则最小二乘拟合以-1到1的比例表示,0表示它们完全偏移并且存在没有任何关系,1 / -1是一个完美的契合。

现在,我的问题是为什么只有直线?为什么我们不能决定他们是否躺在抛物线上,然后相应地计算一个相似的系数(关于抛物线的拟合程度)?为什么我们只选择直线拟合?

由于 Abhishek S

1 个答案:

答案 0 :(得分:1)

那就是如何定义Pearson相关系数。

这是一种可能的相似性指标,它确实衡量了两组偏好按比例一起移动的程度。如果您认为此假设适合您的数据集,那么这将是一个合理的指标。如果没有,您将使用其他指标。

您可以实现一个相似度量,以其他方式定义相似性,当然。

但是,在实践中,为什么另一种关系在这里有意义?相似性应该是对称的,并且两组偏好不能各自与另一组的平方成比例。我认为常见的线性关系是合理的关系。

当然,还有很多其他相似性指标,可以说更好,与评估像这样的关系无关,比如对数似然比。