我一直在努力加快火花中的sortBy()
或sortByKey()
方法。
当我使用这些方法运行spark app时,在整个程序时间排序时耗费的时间最多。
这是示例代码。 sortBy()
和sortByKey()
都很慢。
val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _).sortByKey(true, 1)
如果我有一个大数据文件,是否有一种有效的方法来对大数据文件进行排序?