pdfminer奇数结果有两列pdf

时间:2017-06-14 12:18:23

标签: python xml pdf pdfminer

我将某些pdf文档转换为文本,为此我使用pdfminer(使用pdf2txt.py)。我没有直接从pdf转换为txt,因为我想发信号格式如斜体或粗体。因此我首先将pdf转换为xml。 我使用以下方法将pdf转换为xml:

  

pdf2txt.py -t xml -o out_file.xml in_file.pdf

我的问题是,在转换此pdf时,我在xml文件中发现了一个奇怪的错误。如果将其转换为xml,请检查以下内容:

  1. 在pdf的第21页,第二栏以" Recentemente ..."开始。
  2. 第一栏(同一页面)的第一段以" ... lhes falta"结尾。
  3. 生成的转换xml文件包含第2项之后的项目1.(和完整列)。您可以在xml文件的第128370行中检查它。然后在第131782行中,正确的顺序再次开始,即以" O terceiro ..."开头的段落。如下。
  4. 所以,我的问题是,是否有解决方案来避免此错误。

0 个答案:

没有答案