我正在尝试使用PDFMiner以一致的方式从PDF中提取信息,以便我可以进行进一步的分析,但我无法弄清楚如何正确提取表格数据。 PDF Miner似乎在行之前提取列。有没有人解决过这个问题或者先知道提取行的方法?我尝试将其解压缩到html,但我遇到了同样的问题。非常感谢任何帮助。
来自实际pdf的图片:
提取版本的图片
我用于提取的代码如下:
common
java.lang.ArithmeticException: / by zero
at substrings.main(substrings.java:15)