如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

时间:2017-12-26 12:02:19

标签: java python apache-spark pyspark rdd

我知道方法rdd.first(),它为RDD提供了第一个元素。

此外,方法rdd.take(num)为我提供了第一个num元素。

但是,是否有可能通过索引获取元素?

1 个答案:

答案 0 :(得分:1)

RDD没有编入索引,在大多数情况下,不保证订单并且不支持高效的单项访问。

你可以

  • zipWithIndexfilter
  • zipWithIndex,交换元素和lookup

但不建议这样做,需要线性扫描,并且可能具有非确定性行为。