如何通过计数信息在Java中记录Spark数据集分区?

时间:2019-04-28 18:33:24

标签: java apache-spark apache-spark-sql databricks

有一个简单的问题, 如何记录数据集分区以及Java中的计数。

在scala中,我们执行以下操作

//count by partition_id
import org.apache.spark.sql.functions.spark_partition_id
logger.info("" + df.groupBy(spark_partition_id).count.show())

在Java中,我尝试过这样:

//count by partition_id
logger.info("" + _df.groupBy(spark_partition_id()).count());

但这没有提供任何信息。 我尝试过

 logger.info( df.groupBy(spark_partition_id().alias("partition_id")).count().orderBy("partition_id").show());

但这也没用。

更多有关show()返回void的信息。 所以我尝试用showString(),但是它期望有另外两个参数。

那么我到底需要如何按分区计数以及如何在java中记录它?

0 个答案:

没有答案