将PDF转换为Excel

时间:2015-05-21 10:01:36

标签: java python pdf

如何将pdf内的表格转换为excel。

我尝试了一些在线工具,但结果却是60%。

下面给出了我的pdf中包含的样本表。 enter image description here 我隐藏了包含名称的字段。

1 个答案:

答案 0 :(得分:2)

从pdf文件中获取数据非常混乱。如果pdf表是有序的并且嵌入了独特的模式,那么获取数据的最佳方法是将pdf转换为xml。为此,您可以使用: pdftohtml

安装:sudo apt-get install pdftohtml

用法:pdftohtml -xml *Your File.pdf* *Output File.xml*

您可以直接在终端中运行此命令。

您现在将获得的xml文件将具有与html类似的标记,您可以使用它从生成的xml输出中获取数据。

PS:有一点需要注意的是,如果pdf表没有被排序,那么从该xml中获取数据变得非常困难,因为标签将具有一些与模式不匹配的属性。在这种情况下,您需要对事物进行硬编码。