应用错误收集

在Python中按照某个度量将PDF文件拆分为两列？

时间：2018-05-16 17:31:21

标签： python pdf pypdf2

我有大量的PDF文件，分为两列。当我使用PyPDF2提取文本时，它会读取整个第一列（类似标题）和整个第二列。这使得在标题上拆分变得不可能。它分为两列：

____ __________
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
____ __________

我想我需要沿着列的边缘将PDF分成两半，然后从左到右读取每列。它在8x11 PDF上的宽度为2.26英寸。我也可以使用PyPDF2获取坐标。

有没有人有这方面的经验或知道我会怎么做？

编辑：当我使用PyPDF2提取文本时，输出没有空格：Col1Col1Col1Col1Col2Col2Col2Col2

1 个答案:

答案 0 :(得分：0)

使用pdfminer.six从左到右成功读取，中间有空格。