从txt读取的NLTK标记

时间:2016-03-09 04:31:19

标签: python nltk pos-tagger

我在python上使用NLTK。我想从txt读取使用default,unigram和pos tagger。但是我没有这样做,因为txt没有特定的导入标签。例如,在课堂上,我们使用像棕色等准备好的语料库。我的问题是我如何使用标记符导入方法。最后,我想看看每个标记器的评估性能。

1 个答案:

答案 0 :(得分:0)

阅读如下文件:

f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)

获得标记化文本后,您可以继续标记它,例如:

def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)

这将(作为示例)将每个标记标记为NN。要评估它,您需要为每个单词手动分配标签,然后:

def_tagger.evaluate(you_manual_tagged_sents)

这将返回0(非常差)和1(完美匹配)之间的数字。