在Python中计算数据框的系列类型列中字符串的出现次数

时间:2017-03-15 09:51:17

标签: python pandas

我的数据框中有一列,如下所示

enter image description here

如何计算每个单词的频率。例如:门卫'出现在4行,所以我需要这个词及其频率,即门卫= 4。 这需要针对每个单词进行。

请告知

1 个答案:

答案 0 :(得分:3)

我认为您可以先在列中列出列表,然后使用Counter

df = pd.DataFrame({'features':[['a','b','b'],['c'],['a','a']]})

print (df)
    features
0  [a, b, b]
1        [c]
2     [a, a]

from  itertools import chain
from collections import Counter

print (Counter(list(chain.from_iterable(df.features))))
Counter({'a': 3, 'b': 2, 'c': 1})