我从具有多个分区的hive表中加载了非常大的数据集,因此我使用coalesce()减少了分区数。但是,我想在每个分区中采用10个数据示例,如下所示:
val tmp = new ArrayBuffer[Row]()
dataset.foreachPartition(par => {
par.take(10)
.foreach(row => ddd ++= List(row))
})
当我调试这段代码时,我发现了tmp.size() == 0
。这让我很困惑。