我有一些PDF电子表格,并且希望从每个数据表中提取数据,将其存储为类似于字符串的2d列表;本质上是以对象的形式从PDF中重新创建表/电子表格,我可以在我的代码中编制索引并使用它。 PDFMiner是实现这样的目标的最佳选择吗?如果表格/电子表格中的提取可以基于单元格以某种方式完成而不是寻找空格,那将是很好的,因为经常发生表格将在不同位置具有空单元格。
答案 0 :(得分:3)
首先是简单的部分:是的,PDFMiner可能是你最好的选择: - )
上一句中的“大概”应该给你一个提示...... PDF提取可以是一种黑魔法;一切都取决于源PDF的格式/可预测性。
如果幸运的话,最快的解决方案可能是使用已建立的工具将PDF转换为其他可以轻松解析的格式(HTML会浮现在脑海中),然后从那里提取表格。事实上,这正是pdftable所做的......
有时这可能不起作用,您需要使用页面中的视觉线索来划分表格单元格。在这种情况下,pdfminer会派上用场。它可以告诉您所有文本的位置,并具有像PostScript渲染器之类的东西来“绘制”其他提取工具无法看到的线条。 This blog post解释了你如何做到这一点。