例如,我有一个包含10000个元素的Scala RDD
,我想逐个处理每个元素。我怎么做?我尝试使用take(i).drop(i-1)
,但这非常耗费时间。
答案 0 :(得分:1)
根据你在评论中所说的话:
yourRDD.map(tuple => tuple._2.map(elem => doSomething(elem)))
第一个map
将迭代RDD
内的元组,这就是我调用变量tuple
的原因,然后对于每个tuple
,我们得到第二个元素._2
并应用map
迭代Iterable
的所有元素,这就是我调用变量elem
的原因。
doSomething()
只是您选择应用于每个元素的随机函数。