map()/ mapPartition()输出记录数是否应该与输入记录数匹配?

时间:2018-11-29 07:19:15

标签: java apache-spark apache-spark-sql

如果我有一个将100条记录划分为10个分区的数据集,并且在其上运行mapPartition函数,那么输出数据集的大小是否必须为100?还是我可以拥有100多个记录? (如平面图) 示例代码:

Dataset<Ledger> ledger = balance.mapPartitions(new customTransformationFunction(config)),
                Encoders.bean(Ledger.class));

分类帐数据集的大小可以大于100吗?

0 个答案:

没有答案