如何将PDF文件转换为电子表格

时间:2013-08-17 20:43:57

标签: pdf ubuntu converter spreadsheet libreoffice

我一整天都在尝试转换几个。包含圣保罗交通流量的PDF文件,如MS Office Excel或Ubuntu中的LibreOffice Calc。当我用LibreOffice Calc打开.pdf文件时,它打开了LibreOffice Draw,我无法获得电子表格。

我发现最有希望的方法是here和pdftotext。它工作正常,我可以在LibreOffice Calc中获取表格,但手动调整列。

我的问题是我有这么多.pdf文件,这会花费我很多时间。

有谁知道更好的方法吗?

4 个答案:

答案 0 :(得分:19)

另一种选择是使用Okular(http://okular.kde.org)。 它有表选择工具(Ctrl + 5)。 您可以选择一个表,为其他行和列添加行,并将生成的表复制到剪贴板中。 它对我来说很好。

答案 1 :(得分:11)

也许-layout会对你有用。设置此选项后,pdftotext将尝试将列布局保留在生成的文本文件中。

现在,您可以使用适当的导入设置将文本文件导入LibreOffice Calc。在Calc中打开txt文件时,系统会询问您如何解析文件内容(请参见下面的屏幕截图)。在Separator Options下,选择选项[separated by] SpaceMerge Delimiters。这样,Calc就能够恢复列结构(假设单元格数据不包含空格)。

text import into calc

答案 2 :(得分:11)

Tabula可以很好地运作。 PDF不是从中提取结构化信息的简单格式,因此并非总是可行。

答案 3 :(得分:4)

名为Able2Extract的工具是可以为您提供最少错误的选项