导入和使用NLTK语料库

时间:2014-09-28 20:44:54

标签: python nltk

拜托,请帮忙。我有一个文件夹,里面有我想用NLTK分析的文本文件。如何将其作为语料库导入然后在其上运行NLTK命令?我已将下面的代码放在一起,但它给了我这个错误:

    raise error, v # invalid expression
sre_constants.error: nothing to repeat

代码:

import nltk
import re
from nltk.corpus.reader.plaintext import PlaintextCorpusReader

corpus_root = '/Users/jt/Documents/Python/CRspeeches'
speeches = PlaintextCorpusReader(corpus_root, '*.txt')

print "Finished importing corpus" 

words = FreqDist()

for sentence in speeches.sents():
    for word in sentence:
        words.inc(word.lower())

print words["he"]
print words.freq("he")

1 个答案:

答案 0 :(得分:3)

我理解这个问题与已知的bug(可能是一个功能?)有关,这在this answer中有部分解释。简而言之,某些关于空洞事物的正则表达式会爆发。

错误来源是speeches =行。您应该将其更改为以下内容:

speeches = PlaintextCorpusReader(corpus_root, r'.*\.txt')

然后一切都会加载并编译得很好。