Question

我已经成功编写了一个使用Stanford NER Tagger（名称实体识别器）的脚本。

我的斯坦福大学NER Tagger实现

我正在使用7类英语语料库，如下所示。

stanford_ner_tagger = StanfordNERTagger(
    'stanford_ner/' + 'classifiers/english.much.7class.distsim.crf.ser.gz',
    'stanford_ner/' * 'stanford-ner-3.9.2.jar'

我可以成功加载文本文件并运行stanford_ner_tagger.tag(text.split())（其中text是包含数据的字符串。

标记中包含特殊字符

但是，我在输出中看到该工具无法解释特殊字符，例如冒号，完整句号等。例如，我得到以下信息：

Type: 0, value: Jim.

但是要读取另一个标签。

Type: PERSON, value: Jim

所以..显然，斯坦福大学NER Tagger标记中包含特殊字符。

推荐的做法是什么？我可以指示该NER工具忽略特殊字符来正确解释标签吗？

还是我必须先亲自对文本文件进行预处理？

带有NLTK的StanfordNERTagger用于文本分析-不省略特殊字符

0 个答案: