我试图用我编写的这个小脚本来解决所有问题,就是解析PDF文件中的数据。
但是,我似乎遇到了python的问题,更具体地说,PyPDF2模块无法从pdf文件中读取文本。打印出的数据都是模糊的,基本上不可读。但是,当我打开我想要阅读的pdf文件时,我可以简单地click drag and ctrl+c
复制内容,之后当我将其粘贴到普通的txt文档中时,它可以完美地工作。当我手动复制和粘贴这个过程时,数据是可读的。
所以我试图做的就是模仿那个确切的步骤,然而让它自动化,而不是让我浏览执行上述步骤的pdf文件中的所有页面。
或者如果有任何建议我可以做些什么来实现这一目标,我将不胜感激。我已经尝试将pdf文件转换为docx和纯文本文件,但文件内容的格式完全重新排列
import PyPDF2
pdfFileObj = open('sjsuclassdata.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj = pdfReader.getPage(4)
print(pageObj.extractText())
修改 基本上我现在要做的就是编写一个可以执行以下操作的脚本。
1。)阅读pdf文件
2。)复制整页内容(ctrl + a)
3.)将整页内容粘贴到纯文本文件(ctrl + v)
4。)阅读pdf直到文件结尾
答案 0 :(得分:0)
我会尝试一下:
import slate
output_prefix = 'foobar'
file_ext = 'txt'
with open('example.pdf') as f:
doc = slate.PDF(f)
for page_number, page in enumerate(doc):
open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number])