Spark RDD中的随机访问?

时间:2015-12-03 21:28:38

标签: apache-spark rdd

我想知道Spark RDD是否支持随机访问。如果有任何方法可以控制分区的顺序,例如RDD[0], RDD[1], ..., RDD[n-1], etc

1 个答案:

答案 0 :(得分:0)

您无法定义分区顺序,但您始终可以定义数据分区的方式。

例如

- 考虑使用" partitionBy"为PairRDD定义的函数。 默认情况下,Spark使用" HashPartitioner"但我们可以使用" RangePartitioner"并提供范围。

我们还可以定义自定义分区程序。