python中的自定义标记复合词,并使用nltk与现有模型标记和退避标记组合

时间:2018-06-10 18:51:31

标签: python nltk pos-tagger

import nltk.tag, nltk.data
tagger_path = '/home/amit/nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle'
default_tagger = nltk.data.load(tagger_path)
tagger = nltk.tag.UnigramTagger(model=model, backoff=default_tagger)
tagged=tagger.tag(text)

其中model是字典{'w1':tag,..} - 它也有复合词(比如'软件工程师'),这里的文字是描述工作档案的段落。有人告诉我如何正确地分配标签这些复合词?

0 个答案:

没有答案