从pdf中提取文本而忽略裁剪的内容

时间:2018-03-13 00:34:12

标签: python pdf pdfbox pypdf pdfminer

我试图从已裁剪的pdf文件中提取文本。即它有一个定义的裁剪框,只显示页面的一部分。

问题是裁剪的部分仍然存在于pdf文件中,它只是不可见。

我已经尝试过PyPDF2,pdfquery和pdfminer。他们都阅读了整个内容,包括裁剪部分。

PyPDF2允许我使用以下方法访问cropbox的尺寸:

pdfFileObj=open(path,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.getPage(0).cropBox

但我不知道我能用它做些什么。使用apache pdfBOX在java中裁剪文件。我更喜欢只读取python中文件的未剪切部分,但如果这是唯一的解决方案,我也可以修改java代码裁剪文件。

感谢任何帮助。

0 个答案:

没有答案