最近我开始通过nltk探索stanford ner tagger。我们正在尝试为NER创建我们自己的自定义模型。我观察到斯坦福大学的不同情况表现不同
我正在使用python 2.7,使用stanford-ner-2018-02-27.zip。使用的模型是english.all.3class.distsim.crf.ser.gz。
来自nltk.tag.stanford导入StanfordNERTagger 来自nltk.tokenize import word_tokenize
st = StanfordNERTagger('/ english.all.3class.distsim.crf.ser.gz',' /stanford-ner.jar”, 编码= 'UTF-8')
tokenized_text = word_tokenize(text) nertag_text = st.tag(tokenized_text)
示例 -
text ='在法国,Christine Lagarde在最近接受“华尔街日报”采访时讨论了短期刺激措施。
标记结果
[(u'While',u'O'),(u'in',u'O'),(u'France',u'LOCATION'),(u',',u'O' ),(u'Christine',u'PERSON'),(u'Lagarde',u'PERSON'),(u'discussed',u'O'),(u'short-term',u'O' ),(u'stimulus',u'O'),(u'efforts',u'O'),(u'in',u'O'),(u'a',u'O'), (你好','u'O'),(u'interview',u'O'),(你带','u'O'),(你','u'O'),(你'墙',u'ORGANIZATION'),(u'Street',u'ORGANIZATION'),(u'Journal',u'ORGANIZATION'),(u'。',u'O')]
将文字设为小写
text =“在法国,christine lagarde在最近接受华尔街日报采访时讨论了短期刺激措施”
标记结果
[(你','u'O'),(u'in',u'O'),(u'france',u'O'),(u',',u'O' ),(u'christine',u'PERSON'),(u'lagarde',u'PERSON'),(u'discussed',u'O'),(u'short-term',u'O' ),(u'stimulus',u'O'),(u'efforts',u'O'),(u'in',u'O'),(u'a',u'O'), (你好','u'O'),(u'interview',u'O'),(你带','u'O'),(你','u'O'),(你'wall',u'O'),(u'street',u'O'),(u'journal',u'O')]
标签值存在差异。是否有任何stanford ner模型忽略区分大小写。