我正在使用Spark Standalone集群管理器。我使用runDumpJob
方法(参见下面的代码)转储了一个巨大的表格。要并行启动一些runDumpJob
- 我从不同的线程调用runDumpJob
。
部分runDumpJob
失败并且自动重新启动。
public void runDumpJob(SparkSession sparkSession, MyParams params) {
final Dataset<Row> dataset = sparkSession
.sqlContext()
.read()
.format("jdbc")
.option("url", params.getJdbcUrl())
.option("driver", params.getDriver())
.option("dbtable", params.getSqlQuery())
.option("fetchSize", params.getJobParam("fetchSize"))
.load();
dataset
.coalesce(1)
.write()
.parquet(params.getPath());
}