我有许多布尔数据集,例如:
Books:
book_id user_id
1 1
2 1
3 1
3 2
3 3
和
Movies:
movie_id user_id
1 1
1 2
1 3
2 5
这意味着, user_id 代表所有数据集中的相同实体(来自图书的用户ID:1是相同的用户ID:来自电影的1)。
我需要的是根据输入创建建议用户列表(最好是有序且具有可见百分比),其中包括电影和书籍的ID。
像:
input: [movie1_id, movie2_id, book1_id]
result: [user1_id, user5_id ..]
实体(书籍和电影)ID并不是唯一的,这就是为什么我们分别存储这些数据集(在DB表中,我使用BooleanPref);
明确了如何使用GenericBooleanPrefItemBasedRecommender
进行实体推荐。
是否可以使用Mahout(具体为0.9)处理它,并有这种多输入推荐?
谢谢!
答案 0 :(得分:1)
所以你推荐用户看电影。电影是模型中的“用户”,用户是“项目”。您可以使用任何算法来处理这种推荐问题。
您想要添加图书。听起来你也想要模特中的书籍,也可以作为你可以推荐的“用户”。如果是这样,那就去做吧。您需要一个方案来将书籍和电影ID映射到不重叠的标识符。