Stanford ner tagger区分大小写

时间:2018-05-25 06:40:04

标签: python-2.7 stanford-nlp

最近我开始通过nltk探索stanford ner tagger。我们正在尝试为NER创建我们自己的自定义模型。我观察到斯坦福大学的不同情况表现不同

我正在使用python 2.7,使用stanford-ner-2018-02-27.zip。使用的模型是english.all.3class.distsim.crf.ser.gz。

来自nltk.tag.stanford导入StanfordNERTagger 来自nltk.tokenize import word_tokenize

st = StanfordNERTagger('/ english.all.3class.distsim.crf.ser.gz',' /stanford-ner.jar”,                        编码= 'UTF-8')

tokenized_text = word_tokenize(text) nertag_text = st.tag(tokenized_text)

示例 -

text ='在法国,Christine Lagarde在最近接受“华尔街日报”采访时讨论了短期刺激措施。

标记结果

[(u'While',u'O'),(u'in',u'O'),(u'France',u'LOCATION'),(u',',u'O' ),(u'Christine',u'PERSON'),(u'Lagarde',u'PERSON'),(u'discussed',u'O'),(u'short-term',u'O' ),(u'stimulus',u'O'),(u'efforts',u'O'),(u'in',u'O'),(u'a',u'O'), (你好','u'O'),(u'interview',u'O'),(你带','u'O'),(你','u'O'),(你'墙',u'ORGANIZATION'),(u'Street',u'ORGANIZATION'),(u'Journal',u'ORGANIZATION'),(u'。',u'O')]

将文字设为小写

text =“在法国,christine lagarde在最近接受华尔街日报采访时讨论了短期刺激措施”

标记结果

[(你','u'O'),(u'in',u'O'),(u'france',u'O'),(u',',u'O' ),(u'christine',u'PERSON'),(u'lagarde',u'PERSON'),(u'discussed',u'O'),(u'short-term',u'O' ),(u'stimulus',u'O'),(u'efforts',u'O'),(u'in',u'O'),(u'a',u'O'), (你好','u'O'),(u'interview',u'O'),(你带','u'O'),(你','u'O'),(你'wall',u'O'),(u'street',u'O'),(u'journal',u'O')]

标签值存在差异。是否有任何stanford ner模型忽略区分大小写。

0 个答案:

没有答案