Question

例如，我有一个包含10000个元素的Scala RDD，我想逐个处理每个元素。我怎么做？我尝试使用take(i).drop(i-1)，但这非常耗费时间。

Answer 1

根据你在评论中所说的话：

yourRDD.map(tuple => tuple._2.map(elem => doSomething(elem)))

第一个map将迭代RDD内的元组，这就是我调用变量tuple的原因，然后对于每个tuple，我们得到第二个元素._2并应用map迭代Iterable的所有元素，这就是我调用变量elem的原因。 doSomething()只是您选择应用于每个元素的随机函数。