Spark数据集自定义分区程序

时间:2017-02-06 15:25:44

标签: java apache-spark spark-dataframe rdd apache-spark-dataset

您能否帮我找到用于将sales数据集重新划分为等同大小的N patitions的Java API?等号我意味着相等的行数。

Dataset<Row> sales = sparkSession.read().parquet(salesPath);
sales.toJavaRDD().partitions().size(); // returns 1

0 个答案:

没有答案