如何从pdf文件中逐行阅读文本

时间:2013-02-27 12:46:38

标签: file-io python-2.7

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()     

这不是将pdf的内容写入txt文件......我该怎么做???

1 个答案:

答案 0 :(得分:0)

遍历每个页面并像这样调用extractText()

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "\n"

获得完整内容后,您可以通过'\ n'分隔符轻松分割线条。

编辑: 在for循环之后检查变量contents是否包含任何文本。并非所有PDF文件都包含文本信息。