我使用pandas数据框处理我的数据集。我有3列,airport_id airline_id和delay。我要删除所有少于5家航空公司的始发机场。
我这样做:
grouped_size = df.groupby(['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID']).size()
哪一个给了我每个机场的航空公司数量(我希望),但我不知道如何删除少于5家航空公司的航空公司。谢谢!
答案 0 :(得分:0)
这是一种简单的方法:
grouped_size = df.groupby(['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID']).size().reset_index()
grouped_size.columns = ['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID', 'size']
hi_mask = grouped_size['size'] > 5
grouped_size = grouped_size[hi_mask]