如何有效地遍历RDD

时间:2016-06-22 08:15:36

标签: scala traversal rdd

例如,我有一个包含10000个元素的Scala RDD,我想逐个处理每个元素。我怎么做?我尝试使用take(i).drop(i-1),但这非常耗费时间。

1 个答案:

答案 0 :(得分:1)

根据你在评论中所说的话:

yourRDD.map(tuple => tuple._2.map(elem => doSomething(elem)))

第一个map将迭代RDD内的元组,这就是我调用变量tuple的原因,然后对于每个tuple,我们得到第二个元素._2并应用map迭代Iterable的所有元素,这就是我调用变量elem的原因。 doSomething()只是您选择应用于每个元素的随机函数。