应用错误收集

最近我开始通过nltk探索stanford ner tagger。我们正在尝试为NER创建我们自己的自定义模型。我观察到斯坦福大学的不同情况表现不同

我正在使用python 2.7，使用stanford-ner-2018-02-27.zip。使用的模型是english.all.3class.distsim.crf.ser.gz。

来自nltk.tag.stanford导入StanfordNERTagger 来自nltk.tokenize import word_tokenize

st = StanfordNERTagger（'/ english.all.3class.distsim.crf.ser.gz'，' /stanford-ner.jar”，编码= 'UTF-8'）

tokenized_text = word_tokenize（text） nertag_text = st.tag（tokenized_text）

示例 -

text ='在法国，Christine Lagarde在最近接受“华尔街日报”采访时讨论了短期刺激措施。

标记结果

[（u'While'，u'O'），（u'in'，u'O'），（u'France'，u'LOCATION'），（u'，'，u'O' ），（u'Christine'，u'PERSON'），（u'Lagarde'，u'PERSON'），（u'discussed'，u'O'），（u'short-term'，u'O' ），（u'stimulus'，u'O'），（u'efforts'，u'O'），（u'in'，u'O'），（u'a'，u'O'），（你好'，'u'O'），（u'interview'，u'O'），（你带'，'u'O'），（你'，'u'O'），（你'墙'，u'ORGANIZATION'），（u'Street'，u'ORGANIZATION'），（u'Journal'，u'ORGANIZATION'），（u'。'，u'O'）]

将文字设为小写

text =“在法国，christine lagarde在最近接受华尔街日报采访时讨论了短期刺激措施”

标记结果

[（你'，'u'O'），（u'in'，u'O'），（u'france'，u'O'），（u'，'，u'O' ），（u'christine'，u'PERSON'），（u'lagarde'，u'PERSON'），（u'discussed'，u'O'），（u'short-term'，u'O' ），（u'stimulus'，u'O'），（u'efforts'，u'O'），（u'in'，u'O'），（u'a'，u'O'），（你好'，'u'O'），（u'interview'，u'O'），（你带'，'u'O'），（你'，'u'O'），（你'wall'，u'O'），（u'street'，u'O'），（u'journal'，u'O'）]

标签值存在差异。是否有任何stanford ner模型忽略区分大小写。

Stanford ner tagger区分大小写

0 个答案: