PDFMiner错误地堆栈列表数据?

时间:2015-10-17 17:56:52

标签: python pdf tabular pdfminer pdf-extraction

我正在尝试使用PDFMiner以一致的方式从PDF中提取信息,以便我可以进行进一步的分析,但我无法弄清楚如何正确提取表格数据。 PDF Miner似乎在行之前提取列。有没有人解决过这个问题或者先知道提取行的方法?我尝试将其解压缩到html,但我遇到了同样的问题。非常感谢任何帮助。

来自实际pdf的图片:

image from actual PDF

提取版本的图片

enter image description here

我用于提取的代码如下:

 common
    java.lang.ArithmeticException: / by zero
    at substrings.main(substrings.java:15)

0 个答案:

没有答案