我想创建自己的简单推荐系统,关于书籍。但是存在一些问题 - 一个人组织算法训练数据集是不可能的(至少非常困难)。
那么,有没有关于人们投票的信息的免费数据集或测验,哪些书籍和他们喜欢多少?
第二个问题是书的参数。对于一些基于项目的预测,实际上必须使用书籍的评级(例如语言,单词的平均长度,段落中的平均单词数,我已经计算了大约30个这样的参数)和它们的权重(例如,书的语言被评级)在1点,平均字长为0.314)。那么,有没有准备好的信息呢?
事实上,如果我得到第一个问题的答案,我可以找到第二个问题的解决方案,但我确信,需要的信息存在。
此外,我正在阅读推荐系统手册,它提供了完整的信息(带参考),但很难阅读。在这种情况下你能建议一些额外的书吗?
答案 0 :(得分:9)
你可以查看Books.txt.gz; https://snap.stanford.edu/data/web-Amazon.html 其中包括亚马逊的书籍评级。它还有产品标题,价格,评论摘要等。
此外,书籍交叉数据集可能也很有用 http://grouplens.org/datasets/book-crossing/
我猜你的第二个问题是一个特征选择问题,每个数据集的权重会有所不同。
本课程在课程中提供了推荐系统的简要信息,并且还有一个阅读部分。不幸的是,测验不再可用
当然:https://www.coursera.org/course/recsys
读数:http://recsys.cs.umn.edu/readings.html
编辑: 另一个书籍数据集。
Goodbooks:
http://fastml.com/goodbooks-10k-a-new-dataset-for-book-recommendations/
答案 1 :(得分:0)
此数据集是关于电影而不是书籍,但您可能会发现Netflix Prize数据集可用作测试推荐算法的方法。两个数据集的基本问题是相同的:需要带外功能,必须结合不同权重的功能等。
至于要阅读的额外书籍,我建议使用“Programming Collective Intelligence”。我发现它写得很清楚,非常有帮助。它还包括所有示例算法的代码。