使用nltk计算python中csv文件中单词的出现次数

时间:2013-12-14 07:05:31

标签: python nltk

我试着计算.csv文件中单词“the”的出现次数,但是当我运行时 以下代码,它返回0.(test.csv位于here

我只是搜索此文件的第一列。

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.append(t['text'])

tweet_text = nltk.Text(tweet)
print tweet_text.count("the")

提前感谢您的帮助。

1 个答案:

答案 0 :(得分:2)

使用str.splittext字段拆分为单词,并相应地使用list.extend。除非您只想要小写the,否则请使用小写。

>>> nltk.Text(['the world The words']).count('the')
0
>>> nltk.Text(['the', 'world', 'The', 'words']).count('the')
1

完整代码:

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.extend(t['text'].lower().split()) # <-----------

tweet_text = nltk.Text(tweet)
print tweet_text.count('the')