应用错误收集

有一个简单的问题，如何记录数据集分区以及Java中的计数。

在scala中，我们执行以下操作

//count by partition_id
import org.apache.spark.sql.functions.spark_partition_id
logger.info("" + df.groupBy(spark_partition_id).count.show())

在Java中，我尝试过这样：

//count by partition_id
logger.info("" + _df.groupBy(spark_partition_id()).count());

但这没有提供任何信息。我尝试过

 logger.info( df.groupBy(spark_partition_id().alias("partition_id")).count().orderBy("partition_id").show());

但这也没用。

更多有关show（）返回void的信息。所以我尝试用showString（），但是它期望有另外两个参数。

那么我到底需要如何按分区计数以及如何在java中记录它？