Question

我试着计算.csv文件中单词“the”的出现次数，但是当我运行时以下代码，它返回0.（test.csv位于here）

我只是搜索此文件的第一列。

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.append(t['text'])

tweet_text = nltk.Text(tweet)
print tweet_text.count("the")

提前感谢您的帮助。

Answer 1

使用str.split将text字段拆分为单词，并相应地使用list.extend。除非您只想要小写the，否则请使用小写。

>>> nltk.Text(['the world The words']).count('the')
0
>>> nltk.Text(['the', 'world', 'The', 'words']).count('the')
1

完整代码：

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.extend(t['text'].lower().split()) # <-----------

tweet_text = nltk.Text(tweet)
print tweet_text.count('the')

使用nltk计算python中csv文件中单词的出现次数

1 个答案: