标签: java mongodb apache-spark rdd
我希望使用JavaRDD从MongoDB中读取数据超过6000万的数据,并对其进行进一步的数据分析。
我使用它来生成报告,因此JavaRDD多次构建并花费大量时间。
因为它在根据MongoDB查询条件获取数据后每次都会加载整个数据。
有没有可以提高性能的解决方案?
我是否可以仅从MongoDB加载数据,而不是加载整个数据?