我是apache mahout的新手。我已设法将其用于皮尔逊核心化和余弦向量,但我需要对数据进行归一化并使用Z分数来计算相似度。我无法在mahout中找到允许这样做的方法。 mahout wiki也没有证明使用数据标准化和用于计算相似性。如果有人可以帮我解决相同的代码,我将非常感激。
答案 0 :(得分:1)
mahout用户邮件列表可以更好地回答这些问题。
无论如何,了解你想要在更大规模上做什么会很好。听起来您可能正在尝试构建推荐引擎。如果是这样,Pearson相关性通常是一种非常糟糕的方式。
最好使用Mahout计算指标行为,然后使用Solr或ElasticSearch等搜索引擎来部署推荐功能。
我们在O'Reilly小书中描述了如何做到这一点: