如何从pdf文件中获取内容并将其存储在txt文件中

时间:2013-02-27 13:48:16

标签: python file-io python-2.7

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
content=""
for i in range(0,1):
   content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content) 
f.close()
outpu.close() 

这不是从pdf文件中获取内容并将其存储在txt文件中......这段代码中的错误是什么?

1 个答案:

答案 0 :(得分:1)

作者的一个简单示例建议这样做(你似乎没有做'文件'):

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))

然后您可以执行以下操作:

output.addPage(input1.getPage(0))

当然,请使用for循环,但作者不建议使用extractText。

只需查看网站,示例就是直截了当:http://pybrary.net/pyPdf/

然而

pyPdf不再维护,因此我不建议使用它。作者建议改为检查pyPdf2。

简单的Google搜索还建议您尝试使用pdftotext或pdfminer。那里有很多例子。

祝你好运。