从文档中提取内容

时间:2017-12-18 18:23:26

标签: python nlp topic-modeling spacy text-segmentation

我想从NLP中提取具有各种部分(如技能,认证,工作经验等)的简历中的内容,并根据其类别对其进行标记。虽然我可以编写基本规则来提取各种标点符号上的文本,但在某些情况下它可能不起作用。在这种情况下,Automatic segmentation会有所帮助。解决这个问题的正确方法是什么?

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP

CERTIFICATIONS   
Coursera: R Programming, The Data Scientist Toolbox  2015
Galvanize: Data science & big data analytics 2017

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing

PROFESSIONAL RECOGNITIONS        
   Microsoft Cheers Award, Microsoft Excellence award

PROFESSIONAL ROLES AND RESPONSINBILITIES   
    Building scalable system architecture for distributed applications
    Training junior developers in advance ML
    Prototyping and testing data driven products

2 个答案:

答案 0 :(得分:0)

我使用字典查找简历中存在的常用标题,然后如果该字存在与否则对文本进行分段。此解决方案将需要不同部分的词典,通常出现在简历中。

答案 1 :(得分:0)

如果您的用例是按类别细分简历。您可以尝试使用无监督的群集机器学习算法。因为制作字典和规则需要更多的时间来准备 我将推荐以下步骤来实现您的用例:

  1. 创建简历数据库:开发人员,devops,数据科学家, 满堆等。
  2. 训练K-means模型
  3. 上传用户简历并预测用户群,距质心的距离等
  4. 显示结果