Question

我的目标是根据职位描述对简历进行排名：

我要执行以下任务：

根据简历创建页面列表。

考虑到多个简历，我应该能够将它们分成几页。简历可以是text，doc，docx，pdf或html吗？

以下链接仅适用于pdf，并且仅当发生分页符时： PyPDF2 split pdf by pages

Answer 1

没有一种从不同文件类型提取文本的解决方案。尝试使用fitz软件包从pdf中提取文本：

def extractTextfrompdf(resume):
    try:
        temp = fitz.open("pdf", resume)
        pageCount = temp.pageCount
        resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
        return resumeText, pageCount
    except (TypeError,ValueError):
        logger.exception("Text extraction from pdf failed.")
        pass

您可以使用python-docx从docx文件中提取文本。逻辑应该非常相似。

从简历创建页面列表并获取第一页

1 个答案: