训练自定义 NER Spacy 模型需要多少数据/上下文?

时间:2021-02-11 16:14:45

标签: machine-learning model spacy named-entity-recognition ner

我正在尝试使用 spacy 和命名实体识别从简历中提取以前的职位。

我想训练 spacy 检测自定义命名实体类型:'JOB'。为此,我有大约 800 个来自 https://www.careerbuilder.com/browse/titles/ 的职位名称可以用作训练数据。

在我的 spacy 训练数据中,我是否需要将这些职位头衔整合到为提供上下文而添加的句子中? 一般来说,在简历中,职位名称有点独立,并不是完整句子的一部分。

此外,如果我需要为 800 个标题中的每一个提供连贯的上下文,这对于我想要做的事情来说太耗时了,所以也许除了 NER 之外还有其他解决方案?

1 个答案:

答案 0 :(得分:3)

一般情况下,命名实体识别依赖于词的上下文,否则模型将无法检测以前未见过的词中的实体。因此,标题列表不会帮助您训练任何模型。您更愿意运行字符串匹配来查找简历文档中这 800 个职位中的任何一个,您甚至可以保证找到所有职位 - 但是没有未知职位。

我可以找到 800 个(或更少)真实的 CV 并将工作名称替换为您列表中的那些(或其他!),然后你就可以训练一个能够 NER 的模型了。这将是要走的路,我想。只需从网络上下载尽可能多的免费简历,然后看看这能带给您什么。如果数据不足,您可以对其进行扩充,例如通过将数据中的职位与列表中的某些职位进行交换。

相关问题