应用错误收集

我试图在PDF中执行自动表格提取。我知道Java和Python有几个库和方法，但令我惊讶的是，最适合我的方法是将我的Pdf转换为Docx文档并从那里提取表格（感谢：How to get pictures and tables from .docx document using apache poi? ）。

我的问题是：假设在格式转换中可能会丢失信息，为什么我的结果会更好？ Tabula没有能够自动做得更好。要理解这一点，我已经查找了信息（例如Extracting table contents from a collection of PDF files），但我仍然非常困惑。

PD：目前，我使用了https://github.com/thoqbk/traprange（一种基于Pdfbox的方法），How to extract table as text from the PDF using Python?（PyPdf2）和Tabula。当我到家时，我会放置代码和案例，我是用我的智能手机写的。

为什么在转换后的docx中提取表格比在原始PDF中更好？

0 个答案: