标签: java apache-spark spark-dataframe rdd apache-spark-dataset
您能否帮我找到用于将sales数据集重新划分为等同大小的N patitions的Java API?等号我意味着相等的行数。
sales
N
Dataset<Row> sales = sparkSession.read().parquet(salesPath); sales.toJavaRDD().partitions().size(); // returns 1