我正在尝试按Name
列按人气排序数据。
现在,我正在这样做:
df['Count'] = df.apply(lambda x: len(df[df['Name'] == x['Name']]), axis=1)
df[df['Count'] > 50][['Name', 'Description', 'Count']].drop_duplicates('Name').sort_values('Count', ascending=False).head(100)
但是这个查询非常慢,需要几个小时才能运行。
什么是更有效的方法呢?
答案 0 :(得分:2)
我一直在寻找的解决方案是:
df['Count'] = df.groupby('Name')['Name'].transform('count')
非常感谢@Lynob提供了一个答案的链接。
答案 1 :(得分:1)
您可以使用Series.value_counts
。
df = pd.DataFrame([[0, 1], [1, 0], [1, 1]], columns=['a', 'b'])
print(df['b'].value_counts())
输出
1 2
0 1
Name: b, dtype: int64
答案 2 :(得分:0)
试试这个:
a = ["jim"]*5 + ["jane"]*10 + ["john"]*15
n = pd.Series(a)
sorted((n.value_counts()[n.value_counts() > 5]).index)
['jane', 'john']