我正在尝试计算Pandas数据框中的单词频率。但是,当我尝试在整个数据集中查找最常用的单词时,使用特定的单词(例如,人工)来查找其使用频率以及该单词的另一个单词计数总和时,会得到不同的结果。
我的数据如下:
text
0 good luck kicked first game hope get
我使用以下代码按特定单词和单词列表查找最常用的单词:
要在数据集中查找单词Labout-
df.text.str.count("labour").sum()
741
要在数据集中查找2个最常用的单词
import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
('today', 473)]
您知道为什么我为相同的单词可能会得到不同的结果吗?