当这些表的大小不同且放置位置不同(取决于PDF)时,如何在PDF文件的不同选项卡中的PDF文件中提取/保存多个表?
我目前正在使用Tabula库供python使用以下代码从PDF中提取表:
import tabula
a = tabula.read_pdf("filename.pdf", area=(126, 149, 212, 462), pages=4)
问题是您必须定义要搜索表的区域,但是我需要的是某种自动检测功能,该功能可以在每个页面上查找表,而不必指定区域。另一个问题是我的PDF在每个表之间都有文本和图像。
我已经看到人们很容易地自动为每个页面上具有相同区域的表的文档自动提取数据,但是我的表在每个页面上的位置不同并且大小不同。我也看到了一些使用OpenCV的方法,但是在深入研究之前,我只是想看看tabula是否具有我需要的功能,或者是否有一个类似的库可以满足我的要求。