我想知道Spark RDD是否支持随机访问。如果有任何方法可以控制分区的顺序,例如RDD[0], RDD[1], ..., RDD[n-1], etc
。
答案 0 :(得分:0)
您无法定义分区顺序,但您始终可以定义数据分区的方式。
例如- 考虑使用" partitionBy"为PairRDD定义的函数。 默认情况下,Spark使用" HashPartitioner"但我们可以使用" RangePartitioner"并提供范围。
我们还可以定义自定义分区程序。