将文件内容复制到剪贴板并在python

时间:2016-11-10 23:46:41

标签: python python-3.5

我试图用我编写的这个小脚本来解决所有问题,就是解析PDF文件中的数据。

但是,我似乎遇到了python的问题,更具体地说,PyPDF2模块无法从pdf文件中读取文本。打印出的数据都是模糊的,基本上不可读。但是,当我打开我想要阅读的pdf文件时,我可以简单地click drag and ctrl+c复制内容,之后当我将其粘贴到普通的txt文档中时,它可以完美地工作。当我手动复制和粘贴这个过程时,数据是可读的。

所以我试图做的就是模仿那个确切的步骤,然而让它自动化,而不是让我浏览执行上述步骤的pdf文件中的所有页面。

或者如果有任何建议我可以做些什么来实现这一目标,我将不胜感激。我已经尝试将pdf文件转换为docx和纯文本文件,但文件内容的格式完全重新排列

import PyPDF2
pdfFileObj = open('sjsuclassdata.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages

pageObj = pdfReader.getPage(4)
print(pageObj.extractText())

修改 基本上我现在要做的就是编写一个可以执行以下操作的脚本。

1。)阅读pdf文件

2。)复制整页内容(ctrl + a)

3.)将整页内容粘贴到纯文本文件(ctrl + v)

4。)阅读pdf直到文件结尾

1 个答案:

答案 0 :(得分:0)

我会尝试一下:

import slate

output_prefix = 'foobar'
file_ext = 'txt'

with open('example.pdf') as f:
        doc = slate.PDF(f)
        for page_number, page in enumerate(doc):
            open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number])