python - 将PDF电子表格数据提取到Python数据结构中

将PDF电子表格数据提取到Python数据结构中

时间：2013-07-18 15:51:35

标签： python pdf extract

我有一些PDF电子表格，并且希望从每个数据表中提取数据，将其存储为类似于字符串的2d列表;本质上是以对象的形式从PDF中重新创建表/电子表格，我可以在我的代码中编制索引并使用它。 PDFMiner是实现这样的目标的最佳选择吗？如果表格/电子表格中的提取可以基于单元格以某种方式完成而不是寻找空格，那将是很好的，因为经常发生表格将在不同位置具有空单元格。

1 个答案:

答案 0 :(得分：3)

首先是简单的部分：是的，PDFMiner可能是你最好的选择： - ）

上一句中的“大概”应该给你一个提示...... PDF提取可以是一种黑魔法;一切都取决于源PDF的格式/可预测性。

如果幸运的话，最快的解决方案可能是使用已建立的工具将PDF转换为其他可以轻松解析的格式（HTML会浮现在脑海中），然后从那里提取表格。事实上，这正是pdftable所做的......

有时这可能不起作用，您需要使用页面中的视觉线索来划分表格单元格。在这种情况下，pdfminer会派上用场。它可以告诉您所有文本的位置，并具有像PostScript渲染器之类的东西来“绘制”其他提取工具无法看到的线条。 This blog post解释了你如何做到这一点。