熊猫丢掉罕见的条目

时间:2015-10-30 15:51:30

标签: python pandas group-by

我是熊猫的新手。 为简化起见,我有一个包含两列的数据框:product_id和rating。每个条目都是给定产品的新评论。 现在我想得到一个新的数据框,其中删除了对应于收到少于20条评论的产品的行(即在原始数据框中出现少于20次)。 我可以通过以下方式计算出现次数:

a = data.groupby('product_id').count()
b = a.loc[a['rating']>20]

但这让我回到了一维数据框架。显示时,每个product_id都有其计数,但我无法访问实际的product_id来使用它们来过滤原始表。对于实例,

b.values

返回一个计数的一维数组,但没有product_ids。

1 个答案:

答案 0 :(得分:3)

您想要filter

a = data.groupby('product_id').filter(lambda x: len(x) > 20)