从PDF(库或实用程序)中提取表单数据

时间:2012-04-12 08:14:27

标签: python forms pdf extract

我想使用库从PDF中提取表单数据,最好是在ubuntu中打包的免费软件库。

例如,假设我有一个HTML表单,但我也希望用户可以提交填写的PDF表单而不是HTML表单。

所以,我正在寻找的是一个以PDF为输入的库(或简单的CLI实用程序),并允许我按名称提取已填写的字段,就像使用HTML一样。

我尝试过pdftotext,但这并没有真正保留信息,它只是将PDF呈现为文本。我尝试了PDFminer,但它似乎没有用(至少我的测试PDF)(只是空输出)。

如果它是一个库,我对这种语言不太挑剔,但python会是一个加号。

1 个答案:

答案 0 :(得分:2)

我正在使用pdftk来提取一些数据并操纵pdf,但我不确定填写的表单是否可以按照您需要的方式处理。