PySpark-无法合并来自同一RDD的两个元素

时间:2018-12-08 17:42:49

标签: python apache-spark join pyspark rdd

我有一个包含以下元素的RDD(数据):first_name,last_name,technology

[u'Army', u'Dall', u'java']
[u'Fredy', u'Monty', u'C']
[u'John', u'Cabral', u'R']
[u'Mathy', u'Gauld', u'Python']

我想要得到的是:

[u'Army Dall', u'java']
[u'Fredy Monty', u'C']
[u'John Cabral', u'R']
[u'Mathy Gauld', u'Python']

为了得到这个,我正在尝试:

data.glom().map(lambda line: (line[0]+ " " + line[1])).collect()

但是我遇到此错误:

TypeError: can only concatenate list (not "str") to list

有人知道如何解决这个问题吗?

谢谢

0 个答案:

没有答案