如何使用Spark向记录添加新内容

时间:2017-01-01 14:16:24

标签: scala apache-spark

我有一个包含多个记录的文本文件,如:

 aaaaa
 bbbbb
 ccccc

我想在每条记录的前面添加一个字符串(例如“record:”),因此每个记录都会像:

 record:aaaaa
 record:bbbbb
 record:ccccc

我有读取此文本文件的代码并为此文件创建RDD:

 val aRdd = sc.textFile("/tmp/myFile")

如何使用Spark将字符串添加到此RDD中的每条记录?非常感谢。

1 个答案:

答案 0 :(得分:3)

使用RDD.map

val rddWithRecord = sc.textFile("/tmp/myFile").map(currentWord => s"record:$currentWord")
rddWithRecord.print()