如何将pdf内的表格转换为excel。
我尝试了一些在线工具,但结果却是60%。
下面给出了我的pdf中包含的样本表。 我隐藏了包含名称的字段。
答案 0 :(得分:2)
从pdf文件中获取数据非常混乱。如果pdf表是有序的并且嵌入了独特的模式,那么获取数据的最佳方法是将pdf转换为xml。为此,您可以使用: pdftohtml 。
安装:sudo apt-get install pdftohtml
用法:pdftohtml -xml *Your File.pdf* *Output File.xml*
您可以直接在终端中运行此命令。
您现在将获得的xml文件将具有与html类似的标记,您可以使用它从生成的xml输出中获取数据。
PS:有一点需要注意的是,如果pdf表没有被排序,那么从该xml中获取数据变得非常困难,因为标签将具有一些与模式不匹配的属性。在这种情况下,您需要对事物进行硬编码。