使用我自己的标记语料库进行NLTK POS标记?

时间:2018-05-03 00:35:49

标签: python nlp nltk

我正在尝试使用NLTK为Dothraki语言编写基本的POS标记器。与布朗语料库类似,我有自己的.txt文件,其中包含单词及其相关的词性。例如......

  

Anha / PRP vidrik / VBP khalasares / NN anni / NN jim / NN

我想做的是将语料库加载到NLTK中,并且能够看到词语旁边的词性,类似于布朗语料库的做法。所以这就是我正在做的事情:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但我的结果是:

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]

而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

1 个答案:

答案 0 :(得分:2)

所以我现在觉得有点愚蠢,但我只是删除了"。*"我设法得到了我想要的东西。来自TaggedCorpusReader参数。所以我现在得到的是:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))