如何加速spark中的sortBy或sortBykey方法?

时间:2016-12-26 10:11:39

标签: sorting apache-spark methods

我一直在努力加快火花中的sortBy()sortByKey()方法。

当我使用这些方法运行spark app时,在整个程序时间排序时耗费的时间最多。

这是示例代码。 sortBy()sortByKey()都很慢。

val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
                 .map(word => (word, 1))
                 .reduceByKey(_ + _).sortByKey(true, 1)

如果我有一个大数据文件,是否有一种有效的方法来对大数据文件进行排序?

0 个答案:

没有答案