我想使用库从PDF中提取表单数据,最好是在ubuntu中打包的免费软件库。
例如,假设我有一个HTML表单,但我也希望用户可以提交填写的PDF表单而不是HTML表单。
所以,我正在寻找的是一个以PDF为输入的库(或简单的CLI实用程序),并允许我按名称提取已填写的字段,就像使用HTML一样。
我尝试过pdftotext,但这并没有真正保留信息,它只是将PDF呈现为文本。我尝试了PDFminer,但它似乎没有用(至少我的测试PDF)(只是空输出)。
如果它是一个库,我对这种语言不太挑剔,但python会是一个加号。