Question

我过滤数据集以获取我想要并行保存的数据集列表。

代码：

val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))

yearWiseDsList.zipWithIndex.foreach {
        case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}

目前foreach按顺序运行。我可以将yearWiseDsList转换为par List，但之后不会使用spark进行并行化

我怎么能用火花来做这件事？

Answer 1

问题是关于spark中的嵌套并行化。以下链接回答了它。

Nesting parallelizations in Spark? What's the right approach?

并行化数据集spark列表

1 个答案: