为什么在从pdfMiner.six中的pdf转换为pdf的html文档中,段落重叠?

时间:2020-01-13 13:59:18

标签: python html pdfminer

我试图弄清楚pdfMiner.six的工作方式(当前稳定的Python 3.6版本)。该文档不会过多地涉及示例或教程,因此我会反复尝试。幸运的是,仓库确实包含了一些我可以使用的示例文件。我认为这些示例应该可以在当前的稳定版本中正常工作。

我正在尝试提取可挖掘和可读的文本。简而言之,我想将这些pdf转换为具有完整格式的html文件。但是,样本pdf中的段落会以某种方式被覆盖,从而使文本不可读。我玩过LAParams,它们的line_overlap,line_margin和box_flow的值不同,但是它们似乎都不能解决问题。

这是我的代码和结果截图:

Screenshot showing the overlaping paragraphs

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())

0 个答案:

没有答案