有一个简单的问题, 如何记录数据集分区以及Java中的计数。
在scala中,我们执行以下操作
//count by partition_id
import org.apache.spark.sql.functions.spark_partition_id
logger.info("" + df.groupBy(spark_partition_id).count.show())
在Java中,我尝试过这样:
//count by partition_id
logger.info("" + _df.groupBy(spark_partition_id()).count());
但这没有提供任何信息。 我尝试过
logger.info( df.groupBy(spark_partition_id().alias("partition_id")).count().orderBy("partition_id").show());
但这也没用。
更多有关show()返回void的信息。 所以我尝试用showString(),但是它期望有另外两个参数。
那么我到底需要如何按分区计数以及如何在java中记录它?