如何根据不同的记录数据创建不同的rdds

时间:2018-09-01 04:01:14

标签: apache-spark rdd

我正在尝试根据输入文件创建不同的RDD,而输入文件的前两个字节定义了不同的记录类型

输入文件具有

00~08-30-2018~001
01~Amwell~000048.00~by~0000~test
02~002~145~West ~23.78
99~001~004

如何根据前2个字节创建RDD?

1 个答案:

答案 0 :(得分:0)

val rdd = sc.textFile("yourtestdatapath")
val rdd01 = rdd.filter(i => i.split("~")(0) == "01")
val rdd02 = rdd.filter(i => i.split("~")(0) == "02")

// rdd01将包含以01开头的数据 // rdd02将包含以02开头的数据

enter image description here