Pandas查找列值在数据集中出现的次数

时间:2016-07-20 17:52:12

标签: python pandas

我正在尝试按Name列按人气排序数据。

现在,我正在这样做:

df['Count'] = df.apply(lambda x: len(df[df['Name'] == x['Name']]), axis=1)
df[df['Count'] > 50][['Name', 'Description', 'Count']].drop_duplicates('Name').sort_values('Count', ascending=False).head(100)

但是这个查询非常慢,需要几个小时才能运行。

什么是更有效的方法呢?

3 个答案:

答案 0 :(得分:2)

我一直在寻找的解决方案是:

df['Count'] = df.groupby('Name')['Name'].transform('count')

非常感谢@Lynob提供了一个答案的链接。

答案 1 :(得分:1)

您可以使用Series.value_counts

df = pd.DataFrame([[0, 1], [1, 0], [1, 1]], columns=['a', 'b'])
print(df['b'].value_counts())

输出

1    2
0    1
Name: b, dtype: int64

答案 2 :(得分:0)

试试这个:

a = ["jim"]*5  + ["jane"]*10 + ["john"]*15 
n = pd.Series(a)

sorted((n.value_counts()[n.value_counts() > 5]).index)

['jane', 'john']