应用错误收集

Spark RDD中的随机访问？

时间：2015-12-03 21:28:38

标签： apache-spark rdd

我想知道Spark RDD是否支持随机访问。如果有任何方法可以控制分区的顺序，例如RDD[0], RDD[1], ..., RDD[n-1], etc。

1 个答案:

答案 0 :(得分：0)

您无法定义分区顺序，但您始终可以定义数据分区的方式。

例如

- 考虑使用＆＃34; partitionBy＆＃34;为PairRDD定义的函数。默认情况下，Spark使用＆＃34; HashPartitioner＆＃34;但我们可以使用＆＃34; RangePartitioner＆＃34;并提供范围。

我们还可以定义自定义分区程序。