Question

我已经从2个pdf CV文件中创建了一个语料库，如下所示，现在我被困在循环中从语料库中获取详细信息。

我想从语料库中获取详细信息。

我尝试下面的代码创建语料库，并使用相同的in循环查找细节。

mypdf = open('E:\D drive\Resumes\test_CV.pdf', mode='rb')
mypdf2 = open('E:\D drive\Resumes\test1_CV.pdf', mode='rb')

pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document2 = PyPDF2.PdfFileReader(mypdf2)

first_page = pdf_document.getPage(0)
first_page2 = pdf_document2.getPage(0)

extract = first_page.extractText()
extract1 = first_page2.extractText()

corpus = [extract, extract1]

#here i am trying to access the corpus: but it returns both pdf data not one by one.
for corp_text in corpus:
    get_all_details(corp_text)

它的工作原理如下：

从第一个pdf返回示例：-'PDF 1的文本'
从第一个pdf返回示例：-'PDF 2的文本'

如何在Python循环中从语料库访问pdf

0 个答案: