如何使用foreachPartition()操作数据集?

时间:2019-05-25 05:55:39

标签: apache-spark apache-spark-sql

我从具有多个分区的hive表中加载了非常大的数据集,因此我使用coalesce()减少了分区数。但是,我想在每个分区中采用10个数据示例,如下所示:

    val tmp = new ArrayBuffer[Row]()
    dataset.foreachPartition(par => {
      par.take(10)
        .foreach(row => ddd ++= List(row))
    })

当我调试这段代码时,我发现了tmp.size() == 0。这让我很困惑。

0 个答案:

没有答案