标签: apache-spark rdd
我正在尝试根据输入文件创建不同的RDD,而输入文件的前两个字节定义了不同的记录类型
输入文件具有
00~08-30-2018~001 01~Amwell~000048.00~by~0000~test 02~002~145~West ~23.78 99~001~004
如何根据前2个字节创建RDD?
答案 0 :(得分:0)
val rdd = sc.textFile("yourtestdatapath") val rdd01 = rdd.filter(i => i.split("~")(0) == "01") val rdd02 = rdd.filter(i => i.split("~")(0) == "02")
// rdd01将包含以01开头的数据 // rdd02将包含以02开头的数据