我开发了一个读取PDF文件的程序,但是我注意到我用它来读取它们的工具(PDFminer)似乎错放了文本或根本没有放置它。 输出似乎非常清晰和准确。它尊重间距和线条跳跃,因此输出看起来更像是原始PDF。但是,它似乎跳过了一些行(在我检查的文件中发生过一次)和错位行(在文档中发生了两次错误的行具有10个其他模式,所以为什么只有这两个?)
检索行的代码是这样的:
def extract(fname,docPage):
pages=[docPage,docPage]
pagenums = set(pages)
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
interpreter = PDFPageInterpreter(manager, converter)
infile = file(fname, 'rb')
for page in PDFPage.get_pages(infile, pagenums):
interpreter.process_page(page)
infile.close()
converter.close()
text = output.getvalue().decode("utf8")
output.close
return text
任何想法?或者有人遇到过这个问题?我已经研究过这个问题,但没有结果。也许是使用任何其他工具(如pyPdf2)的方法