我有一个评论数据框,我需要收集所有评论并将它们分配给一个变量,然后按频率分类,然后取一个数字最高的那个
all_text.apply(lambda x: pd.value_counts(x.lower().split())).sum(axis=0).sort_values(ascending=True).head()
答案 0 :(得分:0)
这是一种方式:
import pandas as pd
df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
'A', 'B', 'C' 'D', 'C', 'C']})
res = df['Comments'].value_counts().index[0] # 'C'
或者,如果您有多个具有最高计数的项目:
df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
'A', 'D', 'C' 'D', 'C', 'C']})
s = df['Comments'].value_counts()
res = s[s==s.max()].index.tolist() # ['C', 'D']