应用错误收集

显示Apache Mahout中两个用户之间的pearson相关性相似性

时间：2014-12-20 05:50:45

标签： mahout-recommender

有人知道如何获取Apache Mahout中给定数据集的任意两个用户之间相似性的数值吗？

1 个答案:

答案 0 :(得分：0)

有几种方法，您的数据是什么样的？是交互数据，如购买或观看或评级？

如果是这样，项目相似性或spark-itemsimilarity将起作用，而不是交换项目和用户ID。如果将数据编码为稀疏矩阵，每个用户一行，您还可以使用行相似度或spark-rowsimilarity。

对于hadoop作业，ID必须是Mahout ID，项目和用户的非零行和列号。对于Spark作业，您可以使用您想要的任何ID - 它们将被读作文本，因此必须是唯一的字符串。

Pearson只受hadoop工作的支持。 Spark作业仅使用对数似然比。在协同过滤应用中，LLR几乎总是优于其他相似性＆＃34;相似性＆＃34;指标。