在Python中按照某个度量将PDF文件拆分为两列?

时间:2018-05-16 17:31:21

标签: python pdf pypdf2

我有大量的PDF文件,分为两列。当我使用PyPDF2提取文本时,它会读取整个第一列(类似标题)和整个第二列。这使得在标题上拆分变得不可能。它分为两列:

____ __________
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
____ __________

我想我需要沿着列的边缘将PDF分成两半,然后从左到右读取每列。它在8x11 PDF上的宽度为2.26英寸。我也可以使用PyPDF2获取坐标。

有没有人有这方面的经验或知道我会怎么做?

编辑:当我使用PyPDF2提取文本时,输出没有空格:Col1Col1Col1Col1Col2Col2Col2Col2

1 个答案:

答案 0 :(得分:0)

使用pdfminer.six从左到右成功读取,中间有空格。