我试图了解如何将实体类添加到命名实体识别器。 example code的结构如下所示:
ner = EntityRecognizer(nlp.vocab, entity_types=[... ENTITIES ...])
for itn in range(NUMBER_OF_ITERATIONS):
for raw_text, entities in training_examples:
... some data handling ...
ner.update(doc, gold)
,但接下来的示例(对于BILUO标签)仅调用ner.update()
一次(即没有导致update()
多次查看训练数据的for循环)。
我已阅读this question,其答案似乎告诉我,我应多次为每个培训示例致电update()
;但后来我也认为他们可能只是遵循这些例子。
由于以下句子(从文档页面末尾开始)......
然后使用成本计算损失的梯度,以训练模型。
......我猜我的问题的答案是“是的,我应该通过在训练数据中反复'几次'来训练它”;但如果是这样的话,那么有人建议多少次“足够”吗? (示例代码使用5,但如果我认为它太少了,我最终可能会“太多次”迭代吗?I.e.,它是否“过度拟合”?)