为什么在转换后的docx中提取表格比在原始PDF中更好?

时间:2018-04-18 22:52:48

标签: java pdf apache-poi pdfbox docx

我试图在PDF中执行自动表格提取。我知道Java和Python有几个库和方法,但令我惊讶的是,最适合我的方法是将我的Pdf转换为Docx文档并从那里提取表格(感谢:How to get pictures and tables from .docx document using apache poi? )。

我的问题是:假设在格式转换中可能会丢失信息,为什么我的结果会更好? Tabula没有能够自动做得更好。要理解这一点,我已经查找了信息(例如Extracting table contents from a collection of PDF files),但我仍然非常困惑。

PD:目前,我使用了https://github.com/thoqbk/traprange(一种基于Pdfbox的方法),How to extract table as text from the PDF using Python?(PyPdf2)和Tabula。当我到家时,我会放置代码和案例,我是用我的智能手机写的。

0 个答案:

没有答案