我的脚本可以正常工作从pdf文件中提取文本,除了一些文件中有一些页面的表格在纵向模式下顺时针方向翻转。
很抱歉,我无法发布pdf文件,因为它是一致的。非常感谢对此的一些解决方案。
我在Windows 7 64位上运行
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
rsrcmgr = PDFResourceManager()
sio = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
try:
f = open(r"myfile.pdf", "rb")
for page in PDFPage.get_pages(f):
interpreter.process_page(page)
out_str = sio.getvalue()
f.close()
device.close()
sio.close()
except:
print(sys.exc_info())
out_str = None
print(out_str)