我遇到的所有NER训练实例都是名词,但是可以使用Spacy NER训练动词和名词组合的实体。例如“搅拌锅”。
我先使用基于名词的NER,然后在此类短语上训练嵌套NER,还是直接在Spacy NER中去训练该短语。我想答案将取决于Spacy NER是否将POS和依赖功能用作其培训的一部分。
答案 0 :(得分:1)
NER技术通常在实体相对较短且短语开头和结尾有明确线索时才最有效。这两种情况都是在英语中识别专有名词的情况,这是算法所开发的典型用例。
NER系统很容易学习诸如“踏脚石”或“决定因素”之类的名词短语。该系统在识别动词+宾语的构造方面不太好,因为动词和宾语可能是任意分开的,例如搅拌锅,搅拌金属锅,剧烈搅拌锅等。您还应该对将顺序标记应用到不是句法成分的任意一段文本时保持警惕。描述短语的边界应该落在哪里将非常困难,因此注释者可能不会表现出一致的行为。不确定短语的确切边界将使NER系统的性能非常差,因为损失函数将相差一个单词的跨度视为完全不同的跨度。
最后,回答您有关POS和依赖项解析功能的问题:不,我们目前不在NER中使用这些功能。
您可能对在这两个请求请求中起作用的依赖关系树匹配器感兴趣:
对Matcher的更多改进也将帮助您:https://github.com/explosion/spaCy/issues/1971