用于更新现有Spacy NER模型的培训数据

时间:2020-08-03 08:45:25

标签: model spacy

我正在尝试使用我们自己的数据更新现有的Spacy NER模型。我有几个问题。我非常感谢您的任何提示,建议或解释。

比方说,现有的Spacy German NER模型仅凭我们的数据就可以做到这一点:

[('13.09.2017 GIZ 1 EZ-Programm: Unterstützung der Friedensentwicklung in Kolumbien TZ-Modul: Unterstützung der Friedensentwicklung in Kolumbien  Projektnummer: 2014.2170.0 Nummer des Berichts: 3  Berichtszeitraum: 05/2017 bis 04/2018 Name des/der Auftragsverantwortlichen: Anja Heuft   Unterstützung der Friedensentwicklung in Kolumbien Projektnummer 2014.2170.0    2 Inhalt  Abkürzungsverzeichnis',    {'entities': [(11, 14, 'GIZ', 'MISC'), (17, 28, 'EZ-Programm', 'ORG'), (71, 80, 'Kolumbien', 'LOC'), (132, 141, 'Kolumbien', 'LOC'), (271, 275, 'Anja', 'PER'), (276, 281, 'Heuft', 'PER'), (325, 334, 'Kolumbien', 'LOC'), (374, 395, 'Abkürzungsverzeichnis', 'PER')]})]

我的问题是:

  1. 由于该模型在将“ GIZ”(组织)归类为“ MISC”时出错,因此将其更改为ORG。该模型将“ EZ-Programm”错误分类为“ ORG”。单词“Abkürzungsverzeichnis”也是如此。我可以删除两个元组或更正它们的类(例如,改成“ MISC”)。我的直觉表明,最好改正他们的课。在这种情况下的最佳做法是什么?

TIA, 谢里夫

0 个答案:

没有答案