熊猫中的独特单词及其数量

时间:2019-02-11 15:34:58

标签: python pandas nltk

我刚刚开始学习熊猫,我想知道是否可以将文本放入数据框中以获取结果。我有大约3000个单词的文本信息,其中有些单词重复了很多次,“太阳”,“月亮”,“地球”。我想生成一个图表,显示从最频繁到最少的单词出现次数。我应该集中精力学习熊猫的哪些方面,而熊猫是否是这样做的最佳选择?

2 个答案:

答案 0 :(得分:0)

如果您只是想显示单词的出现频率,则可以使用以下内容:

 df['column_with_words'].hist()

但这可能不会满足您的需求。您最好研究某种类型的文本分析包,例如nltk

答案 1 :(得分:0)

同意马克斯的评论,即您的问题过于笼统。但是,您想要做的是tokenizing文本并计算每个令牌的频率。可以类似于this question来完成。这是一个实现:

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)