我过滤数据集以获取我想要并行保存的数据集列表。
代码:
val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))
yearWiseDsList.zipWithIndex.foreach {
case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}
目前foreach
按顺序运行。我可以将yearWiseDsList
转换为par
List
,但之后不会使用spark进行并行化
我怎么能用火花来做这件事?
答案 0 :(得分:0)
问题是关于spark中的嵌套并行化。以下链接回答了它。
Nesting parallelizations in Spark? What's the right approach?