如何使用python从简历中提取体验?

时间:2016-07-28 12:52:57

标签: python regex python-2.7 nltk

我已经提取了邮件ID,电话号码 - 使用正则表达式 我使用Core NLP服务器提取了名称 我通过提供一组并比较单词来提取技能。 但我不知道如何使用python提取多年的经验 - 任何人都可以就此提出想法吗? 例子:

  

2年的经验

     

两年的经验

     

2010-2014

像这样有很多可能性

1 个答案:

答案 0 :(得分:3)

你可以采取几种方法。如果存在很多可能性,正如您所说,您可以将其视为机器学习问题并使用方法1.否则1,如果可能性有限(例如,大约5),则可以使用第二种方法。

方法1:

将其视为机器学习问题。将文本中的每个句子分类为0或1,具体取决于它是否包含经验年份。这可以通过手动训练一些数据来完成。对于每个培训示例,您将分配一个标签。例如:

工作经验:3年(标签1)

学习两年(标签0)

多年努力工作(标签0)

两年的经验(标签1)

经验:2010-2014(标签1)

一旦你有很多例子,你可以使用testRedactStrictForMayankPandeyLarge或类似的包来训练模型。

方法2:

1-搜索多年。或者,它可以是确切的单词(skicit-learnyear),也可以是四位数字(例如,2014)。

2-如果years通过,请在附近搜索单词体验(或类似内容)。

如果11都通过,那么您有多年的经验。然后,根据您的需要,您可以进一步提取。