有没有一种方法可以将每个JavRDD分区指定为仅具有'n'个记录?
JavaRDD<String> res = rdd.mapPartitions((Iterator<String> iter) -> {
Iterable<String> iterable = () -> iter;
return StreamSupport.stream(iterable.spliterator(), false)
.map(s -> Dummy.getResponse(s, b))
.iterator();
});
答案 0 :(得分:0)
如果您知道有多少条记录,则可以推断出需要保留n条记录然后使用rdd.repartition(number of partitions)
的分区数