在Spark中同时保存多个hadoop数据集

时间:2016-04-10 15:31:02

标签: apache-spark google-bigquery

我有一个看起来像这样的Spark应用程序:

val conf = new SparkConf().setAppName("MyApp")
val sc = new SparkContext(conf)
val rdd1 = ...
rdd1.saveAsNewAPIHadoopDataset(output1)

val rdd2 = ...
rdd2.saveAsNewAPIHadoopDataset(output2)

val rdd3 = ...
rdd3.saveAsNewAPIHadoopDataset(output3)

```

saveAsNewAPIHadoopDataset的调用,虽然我的一些工作人员正在做IO,但如果这项工作继续进行下一阶段,那就太好了。

我尝试将每个计算包装在Future {}中,并在最后等待所有计算,但遇到了这个问题https://issues.apache.org/jira/browse/SPARK-13631

Spark中有没有办法以一种将其他阶段排队的方式保存到Hadoop数据集? FWIW,Hadoop的输出配置是BigQuery连接器(https://cloud.google.com/hadoop/bigquery-connector

0 个答案:

没有答案