显示Apache Mahout中两个用户之间的pearson相关性相似性

时间:2014-12-20 05:50:45

标签: mahout-recommender

有人知道如何获取Apache Mahout中给定数据集的任意两个用户之间相似性的数值吗?

1 个答案:

答案 0 :(得分:0)

有几种方法,您的数据是什么样的?是交互数据,如购买或观看或评级?

如果是这样,项目相似性或spark-itemsimilarity将起作用,而不是交换项目和用户ID。如果将数据编码为稀疏矩阵,每个用户一行,您还可以使用行相似度或spark-rowsimilarity。

对于hadoop作业,ID必须是Mahout ID,项目和用户的非零行和列号。对于Spark作业,您可以使用您想要的任何ID - 它们将被读作文本,因此必须是唯一的字符串。

Pearson只受hadoop工作的支持。 Spark作业仅使用对数似然比。在协同过滤应用中,LLR几乎总是优于其他相似性"相似性"指标。