基于Apache Mahout Item的推荐器

时间:2014-08-06 00:18:14

标签: mahout-recommender

我是否可以在同一项目集中为具有项目偏好的新用户计算推荐,并且可以从之前现有的用户评级中了解项目相似度矩阵,而无需重新计算相似性矩阵?

1 个答案:

答案 0 :(得分:2)

不使用Mahout推荐器。他们不建议用户或不在训练集中的物品。

但是,您可以使用Mahout的itemsimilairty作业以及搜索引擎来完成您所描述的内容。使用项目相似性来创建"指标"项目项相似性矩阵。使用像Solr这样的东西来索引这些。我通过创建(itemID0,itemID1 itemIDn ...)的CSV来完成此操作。每行都有一个itemID作为文档ID和一个以空格分隔的itemID标记列表。也许使用特定于应用程序的ID,如SKU或目录ID。

然后,对于搜索查询,使用新用户的历史记录表示为项目ID标记(与您编制索引的标记相同)。即使用户不在培训数据中,您也会收到要推荐的有序项目列表。

如果你使用Mahout 1.0快照,现在有一个spark-items相似度,它会引入你的应用程序特定ID,并以你提供给搜索引擎的确切格式输出相同的内容,因此你可能没有数据准备。但是通过一些准备和后期处理,你可以使用0.9的

中的项目相似性的hadoop版本做同样的事情

该技术在" Practical Machine Learning"由MapR的Ted Dunning完成。您可以在他们的网站上获得它的免费副本,或者在user@mahout.apache.org邮件列表中询问。

https://guide.finderbots.com使用此技术构建了一个演示网站。您可以通过注册和浏览培训师页面来查看它的工作情况,然后检查您自己的建议 - 不需要重新计算输入和获取记录之间的指标。