熊猫数据框操作

时间:2018-11-12 00:53:17

标签: python pandas pandas-groupby

我使用pandas数据框处理我的数据集。我有3列,airport_id airline_id和delay。我要删除所有少于5家航空公司的始发机场。

我这样做:

grouped_size = df.groupby(['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID']).size()

哪一个给了我每个机场的航空公司数量(我希望),但我不知道如何删除少于5家航空公司的航空公司。谢谢!

1 个答案:

答案 0 :(得分:0)

这是一种简单的方法:

grouped_size = df.groupby(['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID']).size().reset_index()
grouped_size.columns = ['OP_CARRIER_AIRLINE_ID','ORIGIN_AIRPORT_ID', 'size']
hi_mask = grouped_size['size'] > 5
grouped_size = grouped_size[hi_mask]