如何使用PySpark从SPARK中的RDD获取特定值

时间:2016-09-08 15:24:02

标签: python apache-spark pyspark

以下是我的RDD,有5个字段

[('sachin', 200, 10,4,True), ('Raju', 400, 40,4,True), ('Mike', 100, 50,4,False) ]

这里我只需要获取第1,第3和第5个字段,如何在PySpark中进行操作。预期结果如下。我在几个方面尝试过reduceByKey,无法实现它

Sachin,10,True
Raju,40,True
Mike,50,False

1 个答案:

答案 0 :(得分:2)

用简单的地图?

rdd.map(lambda x: (x[0], x[2], x[4]))