我正在使用执行多个任务的python spark工作流程。从db获取一些数据,进程,加载回db。
所有这些都是单独的任务,但每个都是dababase连接对象。
如何在多个执行程序之间传递数据库连接? 我是否需要在每个任务中单独建立连接,还是可以分发连接?
答案 0 :(得分:2)
您不应该在多个执行程序之间传递数据库连接,因为它们将运行在可能位于不同计算机上的不同工作程序上。
似乎有些人设法在Scala / Java中为每个jvm初始化一个连接 - Spark-streaming-and-connection-pool-implementation