Spark与MSSQL - 连接对象和JDBCRDD

时间:2014-11-14 10:27:03

标签: sql-server apache-spark

我想要一个应用程序 -

  1. 从MSSQL Server读取数据
  2. 将此数据放入spark
  3. 使用RDD执行计算
  4. 使用JDBCRDD
  5. 将数据写入另一个数据库

    我的问题是,没有。 4关于使用JDBCRDD将数据写入另一个数据库,在创建JDBCRDD时,我们指定连接参数。

    当我们创建JDBCRDD并将其分布在群集节点上时,连接对象是如何分布的? 它是分布式的,还是为spark setup中的每个分区/节点创建了多个连接对象?

1 个答案:

答案 0 :(得分:1)

如果传递给出连接对象的函数或工厂,则每个分区将为一个。 如果您只使用一个与JDBCRDD的连接,那么它将为所有分区提供一个共享连接。

Spark here

的相关代码