我的目标是根据职位描述对简历进行排名:
我要执行以下任务:
根据简历创建页面列表。
考虑到多个简历,我应该能够将它们分成几页。简历可以是text,doc,docx,pdf或html吗?
以下链接仅适用于pdf,并且仅当发生分页符时: PyPDF2 split pdf by pages
答案 0 :(得分:0)
没有一种从不同文件类型提取文本的解决方案。尝试使用fitz软件包从pdf中提取文本:
def extractTextfrompdf(resume):
try:
temp = fitz.open("pdf", resume)
pageCount = temp.pageCount
resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
return resumeText, pageCount
except (TypeError,ValueError):
logger.exception("Text extraction from pdf failed.")
pass
您可以使用python-docx从docx文件中提取文本。逻辑应该非常相似。