并行化数据集spark列表

时间:2017-02-02 15:06:49

标签: scala apache-spark dataset

我过滤数据集以获取我想要并行保存的数据集列表。

代码:

val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))

yearWiseDsList.zipWithIndex.foreach {
        case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}

目前foreach按顺序运行。我可以将yearWiseDsList转换为par List,但之后不会使用spark进行并行化

我怎么能用火花来做这件事?

1 个答案:

答案 0 :(得分:0)

问题是关于spark中的嵌套并行化。以下链接回答了它。

Nesting parallelizations in Spark? What's the right approach?