我已经成功编写了一个使用Stanford NER Tagger(名称实体识别器)的脚本。
我的斯坦福大学NER Tagger实现
我正在使用7类英语语料库,如下所示。
stanford_ner_tagger = StanfordNERTagger(
'stanford_ner/' + 'classifiers/english.much.7class.distsim.crf.ser.gz',
'stanford_ner/' * 'stanford-ner-3.9.2.jar'
我可以成功加载文本文件并运行stanford_ner_tagger.tag(text.split())
(其中text
是包含数据的字符串。
标记中包含特殊字符
但是,我在输出中看到该工具无法解释特殊字符,例如冒号,完整句号等。例如,我得到以下信息:
Type: 0, value: Jim.
但是要读取另一个标签。
Type: PERSON, value: Jim
所以..显然,斯坦福大学NER Tagger标记中包含特殊字符。
推荐的做法是什么?我可以指示该NER工具忽略特殊字符来正确解释标签吗?
还是我必须先亲自对文本文件进行预处理?