应用错误收集

我一直在努力加快火花中的sortBy()或sortByKey()方法。

当我使用这些方法运行spark app时，在整个程序时间排序时耗费的时间最多。

这是示例代码。 sortBy()和sortByKey()都很慢。

val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
                 .map(word => (word, 1))
                 .reduceByKey(_ + _).sortByKey(true, 1)

如果我有一个大数据文件，是否有一种有效的方法来对大数据文件进行排序？

如何加速spark中的sortBy或sortBykey方法？

0 个答案: