import nltk.tag, nltk.data
tagger_path = '/home/amit/nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle'
default_tagger = nltk.data.load(tagger_path)
tagger = nltk.tag.UnigramTagger(model=model, backoff=default_tagger)
tagged=tagger.tag(text)
其中model是字典{'w1':tag,..} - 它也有复合词(比如'软件工程师'),这里的文字是描述工作档案的段落。有人告诉我如何正确地分配标签这些复合词?