我已经提取了邮件ID,电话号码 - 使用正则表达式 我使用Core NLP服务器提取了名称 我通过提供一组并比较单词来提取技能。 但我不知道如何使用python提取多年的经验 - 任何人都可以就此提出想法吗? 例子:
2年的经验
两年的经验
2010-2014
像这样有很多可能性
答案 0 :(得分:3)
你可以采取几种方法。如果存在很多可能性,正如您所说,您可以将其视为机器学习问题并使用方法1.否则1,如果可能性有限(例如,大约5),则可以使用第二种方法。
方法1:
将其视为机器学习问题。将文本中的每个句子分类为0或1,具体取决于它是否包含经验年份。这可以通过手动训练一些数据来完成。对于每个培训示例,您将分配一个标签。例如:
工作经验:3年(标签1)
学习两年(标签0)
多年努力工作(标签0)
两年的经验(标签1)
经验:2010-2014(标签1)
一旦你有很多例子,你可以使用testRedactStrictForMayankPandeyLarge
或类似的包来训练模型。
方法2:
1-搜索多年。或者,它可以是确切的单词(skicit-learn
或year
),也可以是四位数字(例如,2014)。
2-如果years
通过,请在附近搜索单词体验(或类似内容)。
如果1
和1
都通过,那么您有多年的经验。然后,根据您的需要,您可以进一步提取。