Question

我刚刚开始学习熊猫，我想知道是否可以将文本放入数据框中以获取结果。我有大约3000个单词的文本信息，其中有些单词重复了很多次，“太阳”，“月亮”，“地球”。我想生成一个图表，显示从最频繁到最少的单词出现次数。我应该集中精力学习熊猫的哪些方面，而熊猫是否是这样做的最佳选择？

Answer 1

如果您只是想显示单词的出现频率，则可以使用以下内容：

 df['column_with_words'].hist()

但这可能不会满足您的需求。您最好研究某种类型的文本分析包，例如nltk。

Answer 2

同意马克斯的评论，即您的问题过于笼统。但是，您想要做的是tokenizing文本并计算每个令牌的频率。可以类似于this question来完成。这是一个实现：

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)

熊猫中的独特单词及其数量

2 个答案: