我一整天都在尝试转换几个。包含圣保罗交通流量的PDF文件,如MS Office Excel或Ubuntu中的LibreOffice Calc。当我用LibreOffice Calc打开.pdf文件时,它打开了LibreOffice Draw,我无法获得电子表格。
我发现最有希望的方法是here和pdftotext。它工作正常,我可以在LibreOffice Calc中获取表格,但手动调整列。
我的问题是我有这么多.pdf文件,这会花费我很多时间。
有谁知道更好的方法吗?
答案 0 :(得分:19)
另一种选择是使用Okular(http://okular.kde.org)。 它有表选择工具(Ctrl + 5)。 您可以选择一个表,为其他行和列添加行,并将生成的表复制到剪贴板中。 它对我来说很好。
答案 1 :(得分:11)
也许-layout
会对你有用。设置此选项后,pdftotext
将尝试将列布局保留在生成的文本文件中。
现在,您可以使用适当的导入设置将文本文件导入LibreOffice Calc。在Calc中打开txt
文件时,系统会询问您如何解析文件内容(请参见下面的屏幕截图)。在Separator Options
下,选择选项[separated by] Space
和Merge Delimiters
。这样,Calc就能够恢复列结构(假设单元格数据不包含空格)。
答案 2 :(得分:11)
Tabula可以很好地运作。 PDF不是从中提取结构化信息的简单格式,因此并非总是可行。
答案 3 :(得分:4)
名为Able2Extract的工具是可以为您提供最少错误的选项