使用Pandas数据框的频率计数

时间:2019-06-09 23:18:53

标签: python pandas word-frequency

我正在尝试计算Pandas数据框中的单词频率。但是,当我尝试在整个数据集中查找最常用的单词时,使用特定的单词(例如,人工)来查找其使用频率以及该单词的另一个单词计数总和时,会得到不同的结果。

我的数据如下:

    text
0   good luck kicked first game hope get

我使用以下代码按特定单词和单词列表查找最常用的单词:

要在数据集中查找单词Labout-

df.text.str.count("labour").sum()
741

要在数据集中查找2个最常用的单词

import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
 ('today', 473)]

您知道为什么我为相同的单词可能会得到不同的结果吗?

0 个答案:

没有答案