在itemsimilarity中,metod tere是一个参数,如:
- maxPrefs(-mppu)maxPrefs - 最大数量 偏好 考虑每个用户或 项目,用户或项目 有更多的偏好 将被抽样 (默认值:500)
它是如何工作的? 如果我有5百万用户和5000个项目并且我使用默认的maxPrefs运行项目相似性,那么它只考虑500万个等级中的500个或者什么?是抽样吗?如何强制计算所有输入数据?
定义中的“或”含义是什么: “每个用户或项目要考虑的最大偏好数”
答案 0 :(得分:1)
这可以在邮件列表中找到:http://article.gmane.org/gmane.comp.apache.mahout.user/20827/match=
基本上,几种形式的下采样恰好保持高质量,同时将运行时间保持为O(n)执行时间。
将--maxPrefs(-mppu)maxPrefs更改为4000或最高整数值以包含所有。