我想用NLTK构建pos标记语料库。所以我可以根据它来训练我的模型。
到目前为止,我已经提到了很多来源,但每一个都只是解释了如何阅读你的标记语料库和阅读单词,句子等。以下是我试过的一段代码:
from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()
我想将我的语料库包含在home/nltk_data/corpora/
文件夹中,以便我可以导入我创建的语料库。
请指导我。