我有一个数据框– mydata-,其中包含2000余行,如下所示:
Id Name Score
R1 sam 76
R1 Sosan 8
... ... ...
R4 jack 2
R4 Tom 76
R4 samy 8
R5 Check 9
… ... ..
R6 Anderson 2
... ... ..
现在,我想提取重复超过一定数量的ID,例如4。我可以按组和大小来提取唯一编号的大小:
Mydata.groupby(by=[‘Id’]).size()
但是,我不能仅基于阈值提取ID。
答案 0 :(得分:1)
您可以尝试使用value_counts
来计数Id
的出现,然后根据出现的次数过滤Series
的结果:
num = 2
s = df['Id'].value_counts()
print(s[s>num].index.values)