我有一个看起来像这样的变换:
val partitionTransactions = transactions
.groupBy(GroupKeySelector()).reduceGroup(TransactionAggregator())
.combineGroup(PartitionTransactionsCreator())
但是,不管我的环境是否并行,
我看到PartitionTransactionsCreator
总是只看到2个分区。
我尝试在rebalance
之前使用partitionByHash
和combineGroup
,
而且我还尝试使用mapPartition
代替combineGroup
,
但输出始终分为2个分区,
即使TransactionAggregator
个并行实例与配置的并行度一样多。
mapPartition
和combineGroup
在未分组的DataSet
上使用时是否有区别?