需要为分区获取RDD的迭代器

时间:2018-02-21 00:06:50

标签: scala apache-spark rdd

我正在寻找一种从给定的RDD或DataFrame中获取Iterator[]的方法,而不是通过map()mapPartition(),因为我想要使用此迭代器以及另一个从另一个RDD做其他事情。

示例:

(0 until partitionCount).foreach(i => {
  val iter1 = leftRdd.getIteratorForPartition(i)
  val iter2 = rightRdd.getIteratorForPartition(i)
  resultPartitions += CustomCombine(keys, iter1, iter2)
})

// and create an RDD for DataFrame from resultPartitions

所以基本上我正在寻找相当于我的补充功能: getIteratorForPartition()

0 个答案:

没有答案