我有一个用户,他购买了5种不同类型的书,即小说,小说,小说,非小说,自助。我将这些数据放在一个数据框中。
UserID AGEGROUP GENDER genre
600003 0 1 [fiction, fiction, fiction, n-fiction, self-help]
类似地,我有15000个用户的数据,包括购买的书籍类型(白纸,电子书等),类型等数据。使用这些数据,我需要预测用户可能会从不同的数据集中购买的书籍(不同的书籍,但变量相同(书籍类型,类型)。
我的问题是-对于每个用户,我如何计算购买一本书的可能性。是否采用用户的流派,书籍类型等模式(在上面的DataFrame中,我会进行小说创作,因为它会重复大多数次而不是5种流派),并尝试在新书中找到最近的书数据集?还是我可以采用其他任何方法来预测每个用户的类型和书籍类型。
PS:我是数据科学和python的新手
答案 0 :(得分:0)
协作过滤可能正是您要寻找的东西。 它只是这样做:
用户A购买了{1,2,3}类型的图书
用户B购买了{2,3,4}类型的图书
因此系统建议用户A输入4,用户B输入1。
它基于用户相似度而不是书籍相似度。 您可以找到详细信息here。