NLTK FreqDist不完整的字典

时间:2016-05-31 16:02:34

标签: python nltk

我遇到以下脚本的问题,因为我无法获取每行的完整项目列表。我得到的是像FreqDist({'#v' 3,'有#v':2,'得到#v':2,&# 39;公开#r':1,'沟通#v':1,'目标#n':1,'结束#n':1, '喜欢#v':1,'处方#n':1,'施肥#v':1,...}),FreqDist({&# 39;是#v':2,'有#v':2,'得到#v':2,' 20s #n':1, '喜欢#v':1,' school#n':1,'认为#v':1,'我#n': 1,' go#v':1,' community#n':1,...}),并不会报告每个出现1的单词。

from nltk import FreqDist
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer('\s+', gaps=True)
m = [FreqDist(tokenizer.tokenize(line)) for line in open('1_tagged_copy.txt')]
print m

解决方案:m = [FreqDist(tokenizer.tokenize(line))。items()用于打开行(' 1_tagged_copy.txt')

0 个答案:

没有答案