我想从下面的RDD中过滤数据。
[Row(item_id='2388457', amount='900', city='Cincinnati'),
Row(item_id='2455019', amount='3500',city='Cleveland'),
Row(item_id='2455123', amount='1500',city='Cleveland')]
我需要过滤(city ='Cleveland并且数量> 1000),我该怎么做? 谢谢。
答案 0 :(得分:2)
您可以使用Lambda表达式filter RDD:
filtered_rdd = my_rdd.filter(lambda x: x['city'] == 'Cleveland' and x['amount'] > 1000)
您可能还需要考虑将RDD中的数字转换为float
/ int
值。