我们正试图通过Apache Spark将数据从Oracle数据库传输到Kinetica数据库。
我们在独立模式下安装了Spark。我们执行了以下命令。但是,我们尝试了所有方法,但我们无法并行管理作业。我们使用2台IBM服务器,每台服务器有128个内存和1TB内存。
我们还在spark-defaults.conf中添加了:
spark.executor.memory=64g
spark.executor.cores=32
spark.default.parallelism=32
spark.cores.max=64
spark.scheduler.mode=FAIR
spark.sql.shuffle.partions=32
在机器上:10.20.10.228
./start-master.sh --webui-port 8585
./start-slave.sh --webui-port 8586 spark://10.20.10.228:7077
在机器上10.20.10.229:
./start-slave.sh --webui-port 8586 spark://10.20.10.228:7077
在机器上:10.20.10.228:
我们启动Spark shell:
spark-shell --master spark://10.20.10.228:7077
然后我们进行配置:
val df = spark.read.format("jdbc").option
("url", "jdbc:sqlserver://10.20.10.148:1433;databaseName=testdb").option
("dbtable", "dbo.temp_muh_hareket").option("user", "gpudb").option
("password", "Kinetica2017!").load()
import com.kinetica.spark._
val lp = new LoaderParams("http://10.20.10.228:9191", "jdbc:simba://10.20.10.228:9292;ParentSet=MASTE
R", "muh_hareket_20",
false,"",100000,true,true,"admin","Kinetica2017!",4, true, true, 1)
SparkKineticaLoader.KineticaWriter(df,lp);
以上命令成功运行。数据传输完成。但是,工作不是并行工作。执行人也连续工作并轮流。他们不同时工作。
我们如何让工作并行工作?
我非常感谢你的帮助。我们已尽我们所能。