apache-spark - Spark JDBC数据从关系数据库中获取优化

回复a）

您当然可以在.cache（）Spark应用程序中使用数据框，以避免在Spark应用程序的生命周期内重复执行该数据框的JDBC
您可以使用partitionColumn，lowerBound，upperBound和numPartitions属性读取via range分区并行JDBC调用中的数据帧。这对于分布式（分区）数据库后端是有意义的。
您可以将集成的Spark集群与分布式数据库引擎结合使用，例如IBM dashDB，它运行与数据库分区共存的Spark执行程序，并在Spark和数据库之间运行本地IPC数据交换机制：{{3 }}

b）如果适用，上面提到的Spark端缓存可以提供帮助。此外，Spark中的JDBC数据源会尝试将源自Spark SQL /数据帧操作的预测和过滤器下推到底层SQL数据库。检查生成数据库的SQL。