带有NLTK的StanfordNERTagger用于文本分析-不省略特殊字符

时间:2019-02-10 19:33:02

标签: python nlp nltk

我已经成功编写了一个使用Stanford NER Tagger(名称实体识别器)的脚本。

我的斯坦福大学NER Tagger实现

我正在使用7类英语语料库,如下所示。

stanford_ner_tagger = StanfordNERTagger(
    'stanford_ner/' + 'classifiers/english.much.7class.distsim.crf.ser.gz',
    'stanford_ner/' * 'stanford-ner-3.9.2.jar'

我可以成功加载文本文件并运行stanford_ner_tagger.tag(text.split())(其中text是包含数据的字符串。

标记中包含特殊字符

但是,我在输出中看到该工具无法解释特殊字符,例如冒号,完整句号等。例如,我得到以下信息:

Type: 0, value: Jim.

但是要读取另一个标签。

Type: PERSON, value: Jim

所以..显然,斯坦福大学NER Tagger标记中包含特殊字符。

推荐的做法是什么?我可以指示该NER工具忽略特殊字符来正确解释标签吗?

还是我必须先亲自对文本文件进行预处理?

0 个答案:

没有答案