应用错误收集

如何使用foreachPartition（）操作数据集？

时间：2019-05-25 05:55:39

标签： apache-spark apache-spark-sql

我从具有多个分区的hive表中加载了非常大的数据集，因此我使用coalesce（）减少了分区数。但是，我想在每个分区中采用10个数据示例，如下所示：

    val tmp = new ArrayBuffer[Row]()
    dataset.foreachPartition(par => {
      par.take(10)
        .foreach(row => ddd ++= List(row))
    })

当我调试这段代码时，我发现了tmp.size() == 0。这让我很困惑。

0 个答案:

没有答案