应用错误收集

如何使用Apache Spark构建实时推荐系统？

时间：2016-06-28 23:53:30

标签： apache-spark real-time recommendation-engine

我所能找到的是一些推荐引擎，它们基于csv文件作为数据集构建和部署内存中的所有内容，因此如果每天有大约1M的数据和大约3700个用户。我的情况是，我的公司有大约1M活动项目，每天大约4000活跃用户（平均）和每周大约4.5 M页面访问（平均）。

在内存接缝中构建，训练和推荐项目的想法非常糟糕，所以我正在考虑构建一个推荐引擎，但实时！怎么样？这就是我正在寻找的，可能会训练数据并将其部署到像弹性搜索或类似推荐项目的索引器。

任何分类？

1 个答案:

答案 0 :(得分：1)

我会考虑做的事情很少。

使用机器学习从项目中提取特征，这可能会再次重新训练
分析这些项目的使用行为，包括点击流
使用A-B测试验证算法
使用Spark Stream