我从这个测试用例开始:
test("sortByKey") {
val pairs = sc.parallelize(Array((1, 0), (2, 0), (0, 0), (3, 0)), 2)
assert(pairs.sortByKey().collect() === Array((0, 0), (1, 0), (2, 0), (3, 0)))
}
我认为所有组合结果代码都应该在RDD.scala的Array.concat(结果:_ *)
def collect(): Array[T] = withScope {
val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
Array.concat(results: _*)
}
但是,如何在分布式工作节点中计算数据?
或者我应该在哪里阅读有关排序的代码?