从简历创建页面列表并获取第一页

时间:2019-06-04 08:44:21

标签: python python-3.x machine-learning nltk spacy

我的目标是根据职位描述对简历进行排名:

我要执行以下任务:

根据简历创建页面列表。

考虑到多个简历,我应该能够将它们分成几页。简历可以是text,doc,docx,pdf或html吗?

以下链接仅适用于pdf,并且仅当发生分页符时: PyPDF2 split pdf by pages

1 个答案:

答案 0 :(得分:0)

没有一种从不同文件类型提取文本的解决方案。尝试使用fitz软件包从pdf中提取文本:

def extractTextfrompdf(resume):
    try:
        temp = fitz.open("pdf", resume)
        pageCount = temp.pageCount
        resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
        return resumeText, pageCount
    except (TypeError,ValueError):
        logger.exception("Text extraction from pdf failed.")
        pass

您可以使用python-docx从docx文件中提取文本。逻辑应该非常相似。