SpaCy NER区分数字或实体

时间:2019-10-09 02:14:12

标签: machine-learning nlp spacy named-entity-recognition ner

我目前正在使用SpaCy NER,想知道SpaCy NER是否可以做以下两件事:

案例1

假设我们要使用NER做2个句子:

  1. 他体内的糖水平正在增加。
  2. 他的整体健康水平在提高。

我们可以在第一句中将“增加”标记为“症状”实体,在第二句中将“增加”标记为“好结果”实体吗? NER是否会看到这两个“增加”字词之间的区别?

案例2

我们还有2个不同的句子:

  1. 我的工资是每月8000美元
  2. 我的支出是每月5000美元

NER可以将第一句话中的数字视为“收入”实体,而将第二句话中的数字视为“支出”吗?

谢谢

1 个答案:

答案 0 :(得分:1)

这些任务超出了您期望NER模型能够以多种方式完成的任务。 Spacy的NER算法可用于查找诸如MONEY(在其英语模型中为实体类型)之类的实体类型,或者诸如SYMPTOM之类的东西,但是它并没有考虑检测/分类实体,因此在相关上下文距离很远的情况下,将无法区分这些情况。

您可能希望将NER(或其他类型的相关跨度检测,也可以基于规则)与另一种类型的分析结合起来,而这种分析更多地侧重于上下文。这可能是某种文本分类,您可以检查依赖项解析等。

这是spacy文档中的一个简单示例,其中涉及使用NER(查找MONEY)提取实体关系,然后检查依赖项解析以尝试找出money元素是指什么:

https://spacy.io/usage/examples#entity-relations