import pyPdf
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()
这不是将pdf的内容写入txt文件......我该怎么做???
答案 0 :(得分:0)
遍历每个页面并像这样调用extractText()
:
content = ""
for i in range(0, num_pages):
content += pdfl.getPage(i).extractText() + "\n"
获得完整内容后,您可以通过'\ n'分隔符轻松分割线条。
编辑:
在for循环之后检查变量contents
是否包含任何文本。并非所有PDF文件都包含文本信息。