查询Spark大结果的最佳实践是什么?

时间:2016-03-16 15:25:41

标签: postgresql apache-spark apache-spark-mllib recommendation-engine bigdata

我正在尝试为一个Onlineshop构建一个推荐引擎。 50000篇文章。我使用FPGrowth和Apache Spark创建了频繁的项目集和规则。

我的第一次尝试是将数据(65G行)放入数据库(PostgreSQL)作为intarrays,并使用杜松子酒索引,性能应该没问题。但是当行数很高时,查询需要几分钟。低金额需要ms。

查询Spark结果的最佳做法是什么?

0 个答案:

没有答案