如何将文件添加或上传到nltk语料库?

时间:2012-07-13 01:50:26

标签: python nltk

我是NLTK和Python的新手。如何将我们自己的文件添加或上传到nltk语料库?例如,我如何将自己的.TXT文件上传到ieer语料库?可能吗?感谢。

1 个答案:

答案 0 :(得分:1)

您可能尝试做的是使用nltk软件阅读您自己的文件。如果您的目录/home/me/corpusdir包含ieer格式的文件,则应该可以使用

打开它们

myreader = nltk.corpus.reader.ieer.IEERCorpusReader(r'/ home / me / corpusdir','* .txt')

然后,您可以调用与真正的语料库相同的方法。有关详细信息,请查看CorpusReaderieer模块(我从未使用过)的文档。

如果你真的想你的文件添加到现有的语料库中,你应该将它们放到nltk_data目录中,或者(更复杂,但从长远来看更好)放一个符号链接从您的语料库目录到nltk ieer目录,以便您的读者将原始的ieer文件视为语料库的子目录。