Question

我开发了一个读取PDF文件的程序，但是我注意到我用它来读取它们的工具（PDFminer）似乎错放了文本或根本没有放置它。输出似乎非常清晰和准确。它尊重间距和线条跳跃，因此输出看起来更像是原始PDF。但是，它似乎跳过了一些行（在我检查的文件中发生过一次）和错位行（在文档中发生了两次错误的行具有10个其他模式，所以为什么只有这两个？）

检索行的代码是这样的：

def extract(fname,docPage):
    pages=[docPage,docPage]
    pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = file(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)

    infile.close()
converter.close()
text = output.getvalue().decode("utf8")
output.close

return text

任何想法？或者有人遇到过这个问题？我已经研究过这个问题，但没有结果。也许是使用任何其他工具（如pyPdf2）的方法

PDFminer跳过行或错误的字符串行

0 个答案: