Question

我有一个RDD，元组的格式为：

[("a1","b1","c1","d1","e1"), ("a2","b2","c2","d2","e2"), ...

我想要的是将其转换为键值对RDD，其中第一个字段将是第一个字符串（键），第二个字段是字符串列表（值），即我想将其转换为形式：

[("a1",["b1","c1","d1","e1"]), ("a2",["b2","c2","d2","e2"]), ...

Answer 1

>>> rdd = sc.parallelize([("a1","b1","c1","d1","e1"), ("a2","b2","c2","d2","e2")])

>>> result = rdd.map(lambda x: (x[0], list(x[1:])))

>>> print result.collect()
[('a1', ['b1', 'c1', 'd1', 'e1']), ('a2', ['b2', 'c2', 'd2', 'e2'])]

lambda x: (x[0], list(x[1:]))的解释：

x[0]将使第一个元素成为第一个元素输出
x[1:]将生成除第一个元素之外的所有元素在第二个元素
list(x[1:])会强制它成为一个列表因为默认将是一个元组

PySpark - 将RDD转换为键值对RDD，其值在List中

1 个答案: