我已经从2个pdf CV文件中创建了一个语料库,如下所示,现在我被困在循环中从语料库中获取详细信息。
我想从语料库中获取详细信息。
我尝试下面的代码创建语料库,并使用相同的in循环查找细节。
mypdf = open('E:\D drive\Resumes\test_CV.pdf', mode='rb')
mypdf2 = open('E:\D drive\Resumes\test1_CV.pdf', mode='rb')
pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document2 = PyPDF2.PdfFileReader(mypdf2)
first_page = pdf_document.getPage(0)
first_page2 = pdf_document2.getPage(0)
extract = first_page.extractText()
extract1 = first_page2.extractText()
corpus = [extract, extract1]
#here i am trying to access the corpus: but it returns both pdf data not one by one.
for corp_text in corpus:
get_all_details(corp_text)
它的工作原理如下:
从第一个pdf返回示例:-'PDF 1的文本'
从第一个pdf返回示例:-'PDF 2的文本'