Question

我有一个评论数据框，我需要收集所有评论并将它们分配给一个变量，然后按频率分类，然后取一个数字最高的那个

all_text.apply(lambda x: pd.value_counts(x.lower().split())).sum(axis=0).sort_values(ascending=True).head()

Answer 1

这是一种方式：

import pandas as pd

df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
                                'A', 'B', 'C' 'D', 'C', 'C']})

res = df['Comments'].value_counts().index[0]  # 'C'

或者，如果您有多个具有最高计数的项目：

df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
                                'A', 'D', 'C' 'D', 'C', 'C']})

s = df['Comments'].value_counts()
res = s[s==s.max()].index.tolist()  # ['C', 'D']

如何从数据框中为一个字符串变量分配所有文本？

1 个答案: