import pyPdf
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
content=""
for i in range(0,1):
content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()
这不是从pdf文件中获取内容并将其存储在txt文件中......这段代码中的错误是什么?
答案 0 :(得分:1)
作者的一个简单示例建议这样做(你似乎没有做'文件'):
from pyPdf import PdfFileWriter, PdfFileReader
output = PdfFileWriter()
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))
然后您可以执行以下操作:
output.addPage(input1.getPage(0))
当然,请使用for循环,但作者不建议使用extractText。
只需查看网站,示例就是直截了当:http://pybrary.net/pyPdf/
然而
pyPdf不再维护,因此我不建议使用它。作者建议改为检查pyPdf2。
简单的Google搜索还建议您尝试使用pdftotext或pdfminer。那里有很多例子。
祝你好运。