标签: java python apache-spark pyspark rdd
我知道方法rdd.first(),它为RDD提供了第一个元素。
rdd.first()
RDD
此外,方法rdd.take(num)为我提供了第一个num元素。
rdd.take(num)
num
但是,是否有可能通过索引获取元素?
答案 0 :(得分:1)
RDD没有编入索引,在大多数情况下,不保证订单并且不支持高效的单项访问。
你可以
zipWithIndex
filter
lookup
但不建议这样做,需要线性扫描,并且可能具有非确定性行为。