我刚刚开始学习熊猫,我想知道是否可以将文本放入数据框中以获取结果。我有大约3000个单词的文本信息,其中有些单词重复了很多次,“太阳”,“月亮”,“地球”。我想生成一个图表,显示从最频繁到最少的单词出现次数。我应该集中精力学习熊猫的哪些方面,而熊猫是否是这样做的最佳选择?
答案 0 :(得分:0)
如果您只是想显示单词的出现频率,则可以使用以下内容:
df['column_with_words'].hist()
但这可能不会满足您的需求。您最好研究某种类型的文本分析包,例如nltk
。
答案 1 :(得分:0)
同意马克斯的评论,即您的问题过于笼统。但是,您想要做的是tokenizing
文本并计算每个令牌的频率。可以类似于this question来完成。这是一个实现:
import nltk
with open ("input.txt", "r") as myfile:
data=myfile.read().replace('\n', ' ')
data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)