python - python中的自定义标记复合词，并使用nltk与现有模型标记和退避标记组合 - Thinbug

python中的自定义标记复合词，并使用nltk与现有模型标记和退避标记组合

时间：2018-06-10 18:51:31

标签： python nltk pos-tagger

import nltk.tag, nltk.data
tagger_path = '/home/amit/nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle'
default_tagger = nltk.data.load(tagger_path)
tagger = nltk.tag.UnigramTagger(model=model, backoff=default_tagger)
tagged=tagger.tag(text)

其中model是字典{'w1'：tag，..} - 它也有复合词（比如'软件工程师'），这里的文字是描述工作档案的段落。有人告诉我如何正确地分配标签这些复合词？

0 个答案:

没有答案