如何使用Python阅读多个PDF

时间:2018-12-10 11:14:28

标签: python pypdf2

当我尝试在Python的文件夹中读取和打印多个PDF的内容时,出现了此错误。我无法解决。请帮助我。

pdfFileObj = open(fp,'rb') IOError:[Errno 2]没有这样的文件或目录:'Mr praveen.pdf'

这是我的代码

import PyPDF2
import os
path = r'/root/Desktop/temp_dir'     #path of folder containing several PDFs
for fp in os.listdir(path):
  pdfFileObj = open(fp, 'rb')

  pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
  print(pdfReader.numPages)

  for i in range(0,pdfReader.getNumPages()):
  ` data+= pdfReader.getPage(i).extractText()

  print data                  #(pageObj.extractText())
  pdfFileObj.close()

谢谢

1 个答案:

答案 0 :(得分:0)

问题在于,从os.listdir(path)返回的名称只是您必须使用目录名称os.path.join(path, fp)的文件名:

path = r'/root/Desktop/temp_dir'     #path of folder containing several PDFs
for fp in os.listdir(path):
    pdfFileObj = open(os.path.join(path, fp), 'rb')

在循环之前执行此操作或执行os.chdir(path),但这可能会导致程序其他地方出现问题,因此在大多数情况下,最好使用完整路径名。