Question

我面临着检测以小写字母开头的命名实体的问题。我已经尝试了链接https://github.com/explosion/spaCy/issues/701上提供的解决方案。它似乎对我不起作用。

=====有关spaCy的信息============

spaCy version    2.1.4
Platform         Darwin-16.7.0-x86_64-i386-64bit
Python version   3.6.5
Models           en

import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_sm')
sk = nlp.vocab[u'south korea']
SK = nlp.vocab[u'South Korea']
sk.is_lower = SK.is_lower
sk.shape = SK.shape
sk.shape_ = SK.shape_
sk.is_upper =SK.is_upper
sk.cluster = SK.cluster
sk.is_title = SK.is_title
doc = nlp(u'south korea is a country in asia')
for word in doc:
    print(word.text, word.tag_, word.ent_type_)

预期输出为：

south NNP GPE
korea NNP GPE
is VBZ 
a DT 
country NN 
in IN 
asia NNP

但是上面代码的输出是：

south JJ 
korea NN 
is VBZ 
a DT 
country NN 
in IN 
asia NNP

Answer 1

NE识别器是机器学习的，因此依赖于它在训练数据中看到的最强大的功能。

您可以使用truecaser / recaser，这是一种静态模型，可以将小写字母固定为大小写并将输出传递给spacy。您可以使用：

sacremoses，机器翻译的预处理工具
nreimers/truecaser，使用NLTK的真正案例实现

或者，您可以尝试train your recognizer并修改您的训练数据，使其具有小写的实体，但这是一个繁琐的过程。

Spacy NER无法识别小写实体

1 个答案: