我有大量的PDF文件,分为两列。当我使用PyPDF2提取文本时,它会读取整个第一列(类似标题)和整个第二列。这使得在标题上拆分变得不可能。它分为两列:
____ __________
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
| Col1 Col2 |
____ __________
我想我需要沿着列的边缘将PDF分成两半,然后从左到右读取每列。它在8x11 PDF上的宽度为2.26英寸。我也可以使用PyPDF2获取坐标。
有没有人有这方面的经验或知道我会怎么做?
编辑:当我使用PyPDF2提取文本时,输出没有空格:Col1Col1Col1Col1Col2Col2Col2Col2
答案 0 :(得分:0)
使用pdfminer.six从左到右成功读取,中间有空格。