我试图在PDF中执行自动表格提取。我知道Java和Python有几个库和方法,但令我惊讶的是,最适合我的方法是将我的Pdf转换为Docx文档并从那里提取表格(感谢:How to get pictures and tables from .docx document using apache poi? )。
我的问题是:假设在格式转换中可能会丢失信息,为什么我的结果会更好? Tabula没有能够自动做得更好。要理解这一点,我已经查找了信息(例如Extracting table contents from a collection of PDF files),但我仍然非常困惑。
PD:目前,我使用了https://github.com/thoqbk/traprange(一种基于Pdfbox的方法),How to extract table as text from the PDF using Python?(PyPdf2)和Tabula。当我到家时,我会放置代码和案例,我是用我的智能手机写的。