从输入数据中获取值

时间:2017-03-17 23:25:58

标签: python apache-spark pyspark spark-dataframe rdd

我在keyvalue中输入了带分隔符的数据集,如下所示,

key1:value1|key2:value2|key3:value3  
key1:value4|key2:value5|key3:value6  

我想创建一个格式为

的rdd / dataframe
value1|value2|value3  
value4|value5|value6  

我尝试使用flatmap分隔每个项目并映射以从记录中提取值,然后我将输出作为不同的行。

1 个答案:

答案 0 :(得分:1)

您可以这样映射:

 waiting[j]=false;