将pdf表转换为可用的工具的工具

时间:2014-03-09 08:13:04

标签: pdf

是否有可用的工具/库(在linux中)来帮助将pdf表转换为可用的东西,例如csv?以http://www.sendspace.com/file/dkoq5j为例。这是该页面的图片。

enter image description here

我可以输入它当然可能是最快的,但我认为看看可以自动完成的内容会很有趣。

pdftotext会泄露文字,但只会将所有内容放在这样的列中。

School name

Admission
number
per year

Abacus
Argyle
Beckford
[...]

pdftotext -layout实际上相当不错。

1 个答案:

答案 0 :(得分:1)

我认为总会有一些工作在你身边,但是,只要我知道,你可以使用pdftotext,解析并生成你的csv,或者使用像Apache POI这样的库。< / p>

这个着名的库提供了一种生成xls文件的简便方法。它随处可见。我个人使用的是.NET版本,称为NPOI

现在,回到Linux,请确保测试大量文件(如果它们来自不同的来源)并使用其选项进行调整。另一件需要考虑的是安全性,因为一些PDF文件受到密码保护。

希望有所帮助,