machine-learning - 训练自定义 NER Spacy 模型需要多少数据/上下文？

我正在尝试使用 spacy 和命名实体识别从简历中提取以前的职位。

我想训练 spacy 检测自定义命名实体类型：'JOB'。为此，我有大约 800 个来自 https://www.careerbuilder.com/browse/titles/ 的职位名称可以用作训练数据。

在我的 spacy 训练数据中，我是否需要将这些职位头衔整合到为提供上下文而添加的句子中？一般来说，在简历中，职位名称有点独立，并不是完整句子的一部分。

此外，如果我需要为 800 个标题中的每一个提供连贯的上下文，这对于我想要做的事情来说太耗时了，所以也许除了 NER 之外还有其他解决方案？

一般情况下，命名实体识别依赖于词的上下文，否则模型将无法检测以前未见过的词中的实体。因此，标题列表不会帮助您训练任何模型。您更愿意运行字符串匹配来查找简历文档中这 800 个职位中的任何一个，您甚至可以保证找到所有职位 - 但是没有未知职位。

我可以找到 800 个（或更少）真实的 CV 并将工作名称替换为您列表中的那些（或其他！），然后你就可以训练一个能够 NER 的模型了。这将是要走的路，我想。只需从网络上下载尽可能多的免费简历，然后看看这能带给您什么。如果数据不足，您可以对其进行扩充，例如通过将数据中的职位与列表中的某些职位进行交换。

训练自定义 NER Spacy 模型需要多少数据/上下文？

1 个答案: