解析/识别工作描述中的部分

时间:2019-01-03 13:41:58

标签: python parsing nlp spacy ner

我正在尝试解决一个非常棘手的问题-构建用于职位描述的通用解析器。这个想法是,给定职位描述,解析器应该能够识别并提取不同的部分,例如职位,位置,职位描述,职责,资格等。职位描述基本上将从网页上抓取。

基于规则的方法(例如正则表达式)不起作用,因为该场景过于笼统。我的下一个方法是使用SpaCy训练自定义NER分类器;我之前已经做过很多次了。但是,我遇到了几个问题。

  1. 实体的大小可以很小(位置,职位等),也可以很大(职责,资格等)。如果实体多行或一段长,我不确定NER的效果如何?我见过的大多数用例都是那些实体的长度不超过几个单词的情况。如果我要识别的实体的文本长度很大,Spacy的NER是否能正常工作? (如果需要更清楚些,我可以举一些例子。)

  2. 我提到过,除了NER之外,还有其他策略可用来解析这些职位描述吗?

这里的任何帮助将不胜感激。几个月来,我一直在沿着不同的墙壁挥舞着头,我取得了一些进展,但是我不确定我是否走在正确的道路上,或者是否存在更好的方法。

1 个答案:

答案 0 :(得分:0)

我建议使用flashtext建立基线(基于规则)方法。实际上,这些数据可以根据您的数据提供相当不错且更快的结果。良好的反馈机制将有助于构建序列标记模型,以分析您的职位描述和整理数据。使用这些数据,使用最新的flair图书馆状态建立NER模型