如何在spark中使用JavaRDD减少MongoDB的数据检索时间?

时间:2017-01-11 09:06:40

标签: java mongodb apache-spark rdd

我希望使用JavaRDD从MongoDB中读取数据超过6000万的数据,并对其进行进一步的数据分析。

我使用它来生成报告,因此JavaRDD多次构建并花费大量时间。

因为它在根据MongoDB查询条件获取数据后每次都会加载整个数据。

有没有可以提高性能的解决方案?

我是否可以仅从MongoDB加载数据,而不是加载整个数据?

0 个答案:

没有答案