我是Apache Spark的新手,我有一个文件,其中前10个字符是键的每个句子,休息是一个值,如何对其应用spark排序,将每个句子的前10个字符提取为一键和休息作为数据,所以最后得到一个[key,value]对Rdd作为输出。
答案 0 :(得分:1)
map
和take
的{p> drop
可以解决问题:
rdd.map(line => (line.take(10), line.drop(10)))
类别:
val sorted = rdd.sortByKey
准备输出:
val lines = sorted.map { case (k, v) => s"$k $v" }