如何从文本文件创建自己的NLTK文本?

时间:2012-05-06 00:13:23

标签: python nltk

我是一名文学研究生,我一直在阅读自然语言处理中的O&#Reilly书(nltk.org/book)。它看起来非常有用。我已经在第1章中讨论了所有示例文本和示例任务,比如一致性。我现在知道Moby Dick多少次使用“鲸鱼”这个词。"问题是,我无法弄清楚如何在我自己的一个文本上进行这些计算。我已经找到了关于如何创建自己的语料库的信息(O' Reilly书中的第2章),但我并不认为这正是我想要做的。换句话说,我希望能够做到

import nltk 
text1.concordance('yellow')

并获取“黄色”字样的位置。在我的文字中使用。目前我可以使用示例文本执行此操作,但不能使用我自己的文本。

我对python和编程非常陌生,所以这些东西非常令人兴奋,但非常令人困惑。

3 个答案:

答案 0 :(得分:55)

自己找到答案。那令人尴尬。或者太棒了。

来自Ch。 3:

f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

诀窍。

答案 1 :(得分:14)

对于多个文件的结构化导入:

from nltk.corpus import PlaintextCorpusReader

# RegEx or list of file names
files = ".*\.txt"

corpus0 = PlaintextCorpusReader("/path/", files)
corpus  = nltk.Text(corpus0.words())

见:NLTK 3 book /第1.9节

答案 2 :(得分:0)

如果您的文本文件为utf8格式,请尝试以下变体:

f=open('my-file.txt','r',encoding='utf8')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)