使用Python将带有unicode数据列表的RDD转换为Spark中的元组RDD

时间:2015-12-06 00:15:55

标签: python list apache-spark tuples rdd

我有RDD listunicode个数据,如:

[[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...]

我希望将其转换为RDD tuple,如:

[(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'23300')...]

怎么做?

1 个答案:

答案 0 :(得分:2)

您只需使用tuple

进行映射即可
rdd = sc.parallelize([
    [u'2002-03-31', u'emp1', u'20000'],
    [u'2002-05-11', u'emp2', u'23050'],
    [u'2002-05-17', u'emp1', u'23300']])

tuples = rdd.map(tuple)
tuples.first()
## ('2002-03-31', 'emp1', '20000')