为职称的命名实体识别创建培训数据集

时间:2014-10-07 10:24:14

标签: nlp named-entity-recognition

我想从文本中识别职称。如何通过扩展我的小型训练数据集来创建更大的训练数据集? 是否存在扩展训练集的现成包或开放项目?

2 个答案:

答案 0 :(得分:3)

有一套约44,000个职位名称及其相应的标准职务代码,作为O * Net(美国劳工部职业数据计划)的一部分发布。您可以在此处下载文件:

https://www.onetcenter.org/database.html?p=3#occ

答案 1 :(得分:0)

对于此类请求,您可以向corpora邮件列表发送电子邮件:

http://www.hit.uib.no/corpora/welcome.html