如何使用Apache Spark构建实时推荐系统?

时间:2016-06-28 23:53:30

标签: apache-spark real-time recommendation-engine

我所能找到的是一些推荐引擎,它们基于csv文件作为数据集构建和部署内存中的所有内容,因此如果每天有大约1M的数据和大约3700个用户。 我的情况是,我的公司有大约1M活动项目,每天大约4000活跃用户(平均)和每周大约4.5 M页面访问(平均)。

在内存接缝中构建,训练和推荐项目的想法非常糟糕,所以我正在考虑构建一个推荐引擎,但实时!怎么样 ?这就是我正在寻找的,可能会训练数据并将其部署到像弹性搜索或类似推荐项目的索引器。

任何分类?

1 个答案:

答案 0 :(得分:1)

我会考虑做的事情很少。

  • 使用机器学习从项目中提取特征,这可能会再次重新训练
  • 分析这些项目的使用行为,包括点击流
  • 使用A-B测试验证算法
  • 使用Spark Stream