如何在Pypsark中从RDD过滤

时间:2019-09-05 17:11:31

标签: filter pyspark rdd

我想从下面的RDD中过滤数据。

  [Row(item_id='2388457', amount='900', city='Cincinnati'),
   Row(item_id='2455019', amount='3500',city='Cleveland'),
   Row(item_id='2455123', amount='1500',city='Cleveland')]

我需要过滤(city ='Cleveland并且数量> 1000),我该怎么做? 谢谢。

1 个答案:

答案 0 :(得分:2)

您可以使用Lambda表达式filter RDD:

filtered_rdd = my_rdd.filter(lambda x: x['city'] == 'Cleveland' and x['amount'] > 1000)

您可能还需要考虑将RDD中的数字转换为float / int值。