Spacy NER将实体拆分为两个独立的实体

时间:2018-01-01 11:02:42

标签: python nlp named-entity-recognition spacy

我正在通过以下文字进行NER

print([(i.text, i.label_) for i in doc.ents])

我的文字看起来像

ZS L-1 Cocoa & Burgers Ltd
-
2013 to 2017

我正在获取输出

('ZS L-1', 'ORG'), ('Cocoa & Burgers Ltd', 'ORG'), ('2017', 'DATE')

如何正确获取ORG名称

('ZS L-1 Cocoa & Burgers Ltd', 'ORG')

此外,它无法将2013年视为DATE实体。我的spacy版本是2.0,我正在使用这个模型 - en_core_web_md-2.0.0。当我在整个文本上做NER时,通常会发生这种情况。当我在公司名称上做NER时,它工作正常。

1 个答案:

答案 0 :(得分:1)

我没有足够的声誉来评论,所以在这里添加答案:

你有两个解决方案:

您可以根据自己的数据训练模型:

Training spaCy’s Statistical Models

第二个选项尝试下载大型模型,这次使用中型:

Available models : sm,md,lg

您还可以比较小型,大型模型here的输出: