Question

我试图弄清楚pdfMiner.six的工作方式（当前稳定的Python 3.6版本）。该文档不会过多地涉及示例或教程，因此我会反复尝试。幸运的是，仓库确实包含了一些我可以使用的示例文件。我认为这些示例应该可以在当前的稳定版本中正常工作。

我正在尝试提取可挖掘和可读的文本。简而言之，我想将这些pdf转换为具有完整格式的html文件。但是，样本pdf中的段落会以某种方式被覆盖，从而使文本不可读。我玩过LAParams，它们的line_overlap，line_margin和box_flow的值不同，但是它们似乎都不能解决问题。

这是我的代码和结果截图：

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())

为什么在从pdfMiner.six中的pdf转换为pdf的html文档中，段落重叠？

0 个答案: