PDFminer跳过行或错误的字符串行

时间:2015-05-22 06:22:51

标签: python file file-io io pdfminer

我开发了一个读取PDF文件的程序,但是我注意到我用它来读取它们的工具(PDFminer)似乎错放了文本或根本没有放置它。 输出似乎非常清晰和准确。它尊重间距和线条跳跃,因此输出看起来更像是原始PDF。但是,它似乎跳过了一些行(在我检查的文件中发生过一次)和错位行(在文档中发生了两次错误的行具有10个其他模式,所以为什么只有这两个?)

检索行的代码是这样的:

def extract(fname,docPage):
    pages=[docPage,docPage]
    pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = file(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)

    infile.close()
converter.close()
text = output.getvalue().decode("utf8")
output.close

return text

任何想法?或者有人遇到过这个问题?我已经研究过这个问题,但没有结果。也许是使用任何其他工具(如pyPdf2)的方法

0 个答案:

没有答案