如何从数据框中为一个字符串变量分配所有文本?

时间:2018-03-07 16:33:54

标签: python pandas

我有一个评论数据框,我需要收集所有评论并将它们分配给一个变量,然后按频率分类,然后取一个数字最高的那个

all_text.apply(lambda x: pd.value_counts(x.lower().split())).sum(axis=0).sort_values(ascending=True).head()

1 个答案:

答案 0 :(得分:0)

这是一种方式:

import pandas as pd

df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
                                'A', 'B', 'C' 'D', 'C', 'C']})

res = df['Comments'].value_counts().index[0]  # 'C'

或者,如果您有多个具有最高计数的项目:

df = pd.DataFrame({'Comments': ['A', 'B', 'D', 'C', 'D', 'E',
                                'A', 'D', 'C' 'D', 'C', 'C']})

s = df['Comments'].value_counts()
res = s[s==s.max()].index.tolist()  # ['C', 'D']