Question

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()

这不是将pdf的内容写入txt文件......我该怎么做???

Answer 1

遍历每个页面并像这样调用extractText()：

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "\n"

获得完整内容后，您可以通过'\ n'分隔符轻松分割线条。

编辑：在for循环之后检查变量contents是否包含任何文本。并非所有PDF文件都包含文本信息。

如何从pdf文件中逐行阅读文本

1 个答案: