在函数中使用两个不同的RDD进行计算

时间:2016-06-21 15:55:06

标签: scala apache-spark rdd

我创建了一个函数,它接受两个表示不同集合的RDD。这些RDD绝不保证大小相同(99%的时间不会反正)。理想情况下,我希望将RDD的次数分割相同的次数(如果甚至可以创建足够的次数),然后传递它们,这样该函数可以并行地称为“分区数”。是否有具体的语法?

编辑:我还想快速更改规范。由于保证一个RDD比另一个大得多,我希望相应地对其中一个RDD进行分区(例如16次)。但是,对于其他RDD,我希望它只被分区一次,所以同一个和所有这些都被传递给并行运行的每个函数。

0 个答案:

没有答案