Question

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
content=""
for i in range(0,1):
   content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content) 
f.close()
outpu.close()

这不是从pdf文件中获取内容并将其存储在txt文件中......这段代码中的错误是什么？

Answer 1

作者的一个简单示例建议这样做（你似乎没有做'文件'）：

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))

然后您可以执行以下操作：

output.addPage(input1.getPage(0))

当然，请使用for循环，但作者不建议使用extractText。

只需查看网站，示例就是直截了当：http://pybrary.net/pyPdf/

然而

pyPdf不再维护，因此我不建议使用它。作者建议改为检查pyPdf2。

简单的Google搜索还建议您尝试使用pdftotext或pdfminer。那里有很多例子。

祝你好运。

如何从pdf文件中获取内容并将其存储在txt文件中

1 个答案: