用NLTK创建pos标记语料库

时间:2017-09-26 12:18:09

标签: python nltk pos-tagger tagged-corpus

我想用NLTK构建pos标记语料库。所以我可以根据它来训练我的模型。

到目前为止,我已经提到了很多来源,但每一个都只是解释了如何阅读你的标记语料库和阅读单词,句子等。以下是我试过的一段代码:

from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()

我想将我的语料库包含在home/nltk_data/corpora/文件夹中,以便我可以导入我创建的语料库。 请指导我。

1 个答案:

答案 0 :(得分:1)

我得到了有效的解决方案: 请逐步参考link

here下载相同的必要文件。

1开始关注命令后,将生成pickle文件,这是您标记的语料库。

生成pickle文件后,您可以通过运行以下代码来检查您的tagger是否正常工作:

import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])