我试着计算.csv文件中单词“the”的出现次数,但是当我运行时 以下代码,它返回0.(test.csv位于here)
我只是搜索此文件的第一列。
import csv
import nltk
tweet = []
for t in csv.DictReader(open('test.csv'), delimiter=','):
tweet.append(t['text'])
tweet_text = nltk.Text(tweet)
print tweet_text.count("the")
提前感谢您的帮助。
答案 0 :(得分:2)
使用str.split
将text
字段拆分为单词,并相应地使用list.extend
。除非您只想要小写the
,否则请使用小写。
>>> nltk.Text(['the world The words']).count('the')
0
>>> nltk.Text(['the', 'world', 'The', 'words']).count('the')
1
完整代码:
import csv
import nltk
tweet = []
for t in csv.DictReader(open('test.csv'), delimiter=','):
tweet.extend(t['text'].lower().split()) # <-----------
tweet_text = nltk.Text(tweet)
print tweet_text.count('the')