我想识别带有两个标签的单词或实体。
例如:John works in India.
输出应为:
John PER NNP
工作O O
在O O
印度LOC NNP
因此,它应该识别命名实体以及 POS标记。
我创建了自己的训练数据集。
我正在使用以下属性文件
trainFile = training.tsv
serializeTo = model.ser.gz
map = word = 0,answer = 1,tag = 2
useClassFeature =真 useWord =真
useNGrams =真
noMidNGrams =真
maxNGramLeng = 6
usePrev =真
useNext =真
useSequences =真
usePrevSequences =真
useTags = true
useWordTag = true
useGenericFeatures = true
mergeTags = true
maxLeft = 1
useTypeSeqs =真
useTypeSeqs2 =真
useTypeySequences =真
wordShape = chris2useLC
useDisjunctive =真
培训文件如下所示:
John PER NNP
工作O O
在O O
印度LOC NNP
我使用以下代码在python中运行NER:
tagging_NER = StanfordNERTagger('.../model.ser.gz','.../stanford-ner.jar',encoding='utf-8')
token = StanfordTokenizer('.../stanford-ner.jar')
tok = token.tokenize(text)
tags = tagging_NER.tag(tok)
现在这段代码只给我named entities
。它不会返回POS tags
。
有什么方法可以让我得到这两件事吗?