应用错误收集

我从这个测试用例开始：

test("sortByKey") {
   val pairs = sc.parallelize(Array((1, 0), (2, 0), (0, 0), (3, 0)), 2)
   assert(pairs.sortByKey().collect() === Array((0, 0), (1, 0), (2, 0), (3, 0)))
}

我认为所有组合结果代码都应该在RDD.scala的Array.concat（结果：_ *）

def collect(): Array[T] = withScope {
    val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
    Array.concat(results: _*)
}

但是，如何在分布式工作节点中计算数据？

或者我应该在哪里阅读有关排序的代码？

Spark排序原理？

0 个答案: