如何在Python循环中从语料库访问pdf

时间:2019-06-04 12:15:27

标签: python pypdf2

我已经从2个pdf CV文件中创建了一个语料库,如下所示,现在我被困在循环中从语料库中获取详细信息。

我想从语料库中获取详细信息。

我尝试下面的代码创建语料库,并使用相同的in循环查找细节。

mypdf = open('E:\D drive\Resumes\test_CV.pdf', mode='rb')
mypdf2 = open('E:\D drive\Resumes\test1_CV.pdf', mode='rb')

pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document2 = PyPDF2.PdfFileReader(mypdf2)

first_page = pdf_document.getPage(0)
first_page2 = pdf_document2.getPage(0)

extract = first_page.extractText()
extract1 = first_page2.extractText()

corpus = [extract, extract1]

#here i am trying to access the corpus: but it returns both pdf data not one by one.
for corp_text in corpus:
    get_all_details(corp_text)

它的工作原理如下:

  • 从第一个pdf返回示例:-'PDF 1的文本'

  • 从第一个pdf返回示例:-'PDF 2的文本'

0 个答案:

没有答案