我有一个包含多个记录的文本文件,如:
aaaaa
bbbbb
ccccc
我想在每条记录的前面添加一个字符串(例如“record:”),因此每个记录都会像:
record:aaaaa
record:bbbbb
record:ccccc
我有读取此文本文件的代码并为此文件创建RDD:
val aRdd = sc.textFile("/tmp/myFile")
如何使用Spark将字符串添加到此RDD中的每条记录?非常感谢。
答案 0 :(得分:3)
使用RDD.map
:
val rddWithRecord = sc.textFile("/tmp/myFile").map(currentWord => s"record:$currentWord")
rddWithRecord.print()