我正在我的应用程序中构建一个推荐系统,我可能会使用apache mahout,我收集一个大数据集,它将在一段时间内收集...所以哪一个收集最便宜它在某种日志文件中与在DB中收集并在我需要时导出它
答案 0 :(得分:1)
Mahout的推荐代码可以直接从数据库或文件中读取 - 如果数据格式合理的话。它不会读取常规日志文件;它们需要翻译成简单的CSV或TSV。但它可以读取任何包含用户/项目/偏好的表。
如果您已经将数据放入数据库表中,我会说将其保留在那里并且不要复制或不必要地导出它。如果可能的话,你可能想让Mahout把所有这些都吸进内存。
如果您尚未存储此数据,并且想要选择简单有效的表示形式,那么我建议您提取用户/项目/首选项信息并将其存储在使用gzip压缩的简单CSV文件中。这些也可以与Mahout一起使用,并且比完整的日志文件或数据库更简单,更紧凑。