编辑NLTK语料库

时间:2015-03-11 20:13:57

标签: python nltk corpus tagged-corpus

除了nltk附带的语料库,我想用我自己的语料库训练它,遵循相同的词性规则。如何找到它正在使用的语料库,以及如何添加自己的语料库(此外,不作为替代)?

编辑:以下是我目前使用的代码:

inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)

1 个答案:

答案 0 :(得分:0)

NLTK附带了大量不同的语料库。如果您更详细地指定了要扩充的语料库,这将有所帮助。 NLTK中的主要英语POS语料库是Brown corpus。另请参阅http://www.nltk.org/book/ch05.html以及http://en.wikipedia.org/wiki/Brown_Corpushttp://www.nltk.org/nltk_data/