Spark排序原理?

时间:2015-08-18 08:58:40

标签: scala sorting mapreduce apache-spark

我从这个测试用例开始:

test("sortByKey") {
   val pairs = sc.parallelize(Array((1, 0), (2, 0), (0, 0), (3, 0)), 2)
   assert(pairs.sortByKey().collect() === Array((0, 0), (1, 0), (2, 0), (3, 0)))
}

我认为所有组合结果代码都应该在RDD.scala的Array.concat(结果:_ *)

def collect(): Array[T] = withScope {
    val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
    Array.concat(results: _*)
}

但是,如何在分布式工作节点中计算数据?

或者我应该在哪里阅读有关排序的代码?

0 个答案:

没有答案