我是NLTK和Python的新手。如何将我们自己的文件添加或上传到nltk语料库?例如,我如何将自己的.TXT文件上传到ieer语料库?可能吗?感谢。
答案 0 :(得分:1)
您可能尝试做的是使用nltk软件阅读您自己的文件。如果您的目录/home/me/corpusdir
包含ieer格式的文件,则应该可以使用
myreader = nltk.corpus.reader.ieer.IEERCorpusReader(r'/ home / me / corpusdir','* .txt')
然后,您可以调用与真正的语料库相同的方法。有关详细信息,请查看CorpusReader
和ieer
模块(我从未使用过)的文档。
如果你真的想将你的文件添加到现有的语料库中,你应该将它们放到nltk_data
目录中,或者(更复杂,但从长远来看更好)放一个符号链接从您的语料库目录到nltk ieer目录,以便您的读者将原始的ieer文件视为语料库的子目录。