编码以在Apache Mahout中找到Z得分并计算相似度

时间:2014-10-25 17:13:38

标签: hadoop mahout recommendation-engine mahout-recommender

我是apache mahout的新手。我已设法将其用于皮尔逊核心化和余弦向量,但我需要对数据进行归一化并使用Z分数来计算相似度。我无法在mahout中找到允许这样做的方法。 mahout wiki也没有证明使用数据标准化和用于计算相似性。如果有人可以帮我解决相同的代码,我将非常感激。

1 个答案:

答案 0 :(得分:1)

mahout用户邮件列表可以更好地回答这些问题。

无论如何,了解你想要在更大规模上做什么会很好。听起来您可能正在尝试构建推荐引擎。如果是这样,Pearson相关性通常是一种非常糟糕的方式。

最好使用Mahout计算指标行为,然后使用Solr或ElasticSearch等搜索引擎来部署推荐功能。

我们在O'Reilly小书中描述了如何做到这一点:

https://www.mapr.com/practical-machine-learning