Python pdfminer.six挂起

时间:2017-08-02 04:23:24

标签: python pdfminer

我的脚本可以正常工作从pdf文件中提取文本,除了一些文件中有一些页面的表格在纵向模式下顺时针方向翻转。

很抱歉,我无法发布pdf文件,因为它是一致的。非常感谢对此的一些解决方案。

我在Windows 7 64位上运行

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

rsrcmgr = PDFResourceManager()
sio = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
try:
    f = open(r"myfile.pdf", "rb")
    for page in PDFPage.get_pages(f):
        interpreter.process_page(page)
    out_str = sio.getvalue()
    f.close()
    device.close()
    sio.close()
except:
    print(sys.exc_info())
    out_str = None

print(out_str)

0 个答案:

没有答案