我试图弄清楚pdfMiner.six的工作方式(当前稳定的Python 3.6版本)。该文档不会过多地涉及示例或教程,因此我会反复尝试。幸运的是,仓库确实包含了一些我可以使用的示例文件。我认为这些示例应该可以在当前的稳定版本中正常工作。
我正在尝试提取可挖掘和可读的文本。简而言之,我想将这些pdf转换为具有完整格式的html文件。但是,样本pdf中的段落会以某种方式被覆盖,从而使文本不可读。我玩过LAParams,它们的line_overlap,line_margin和box_flow的值不同,但是它们似乎都不能解决问题。
这是我的代码和结果截图:
with open(pdf_file, 'rb') as fin:
extract_text_to_fp(fin, output_string,
output_dir=output_dir,
laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
with open(converted_file, 'wb') as fout:
fout.write(output_string.getvalue())