使用比其源更多的元素创建RDD

时间:2016-08-30 23:07:03

标签: python apache-spark rdd distributed-computing bigdata

我有一个名为codes的RDD,它是一对,其上半部分为字符串,下半部分为另一对:

In [76]: codes.collect()
Out[76]: 
[(u'3362336966', (6208, 5320)),
 (u'7889466042', (4140, 5268))]

我正试图解决这个问题:

In [76]: codes.collect()
Out[76]: 
[(u'3362336966', 6208),
 (u'3362336966', 5320),
 (u'7889466042', 4140),
 (u'7889466042', 5268)]

怎么做?

我失败的尝试:

In [77]: codes_in = codes.map(lambda x: (x[0], x[1][0]), (x[0], x[1][1]))
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-77-e1c7925bc075> in <module>()
----> 1 codes_in = codes.map(lambda x: (x[0], x[1][0]), (x[0], x[1][1]))

NameError: name 'x' is not defined

1 个答案:

答案 0 :(得分:1)

我认为您想要的是以下内容:

codes_in = codes.map(lambda x: [(x[0], p) for p in x[1]]).flatMap(lambda x: x)

如果它是python 2,为了易读性,你可以:

codes_in = codes.map(lambda k, vs: [(k, v) for v in vs]).flatMap(lambda x: x)

通过这种方式,您将能够“提取”与该键相关联的每个值,并强制每一行都是(k, v)形式的记录。