pyspark使用另一个字段作为源生成rdd行

时间:2018-08-08 07:28:30

标签: pyspark rdd

new int

我需要从此rdd生成以下格式的另一个

Input RDD
--------------------

A,123|124|125|126
B,123|124|125|126

1 个答案:

答案 0 :(得分:0)

x = sc.parallelize([("a", ["x", "y", "z"]), ("b", ["p", "r"])])
def f(x): return x
x.flatMapValues(f).collect()
[('a', 'x'), ('a', 'y'), ('a', 'z'), ('b', 'p'), ('b', 'r')]