从许多PDF表单中提取数据

时间:2014-08-29 14:23:47

标签: forms unix pdf adobe

我经常收到大量相同的PDF表格。我想将数据从中提取到文本文件中。我想通过某种脚本来做这件事。我在UNIX环境中工作。

这可能吗?我已经用脑子搜索了我的脑筋,找不到任何东西。

1 个答案:

答案 0 :(得分:0)

PDF中的文本由页面内容流中的文本元素表示。流通常是压缩的。如果您有时间和资源,可以使用ISO 32000-1:2008或Adobe PDF 1.7规范来构建自己的PDF解析器。或者使用第三方应用程序作为中间翻译步骤可能更实际。

有些实用程序会解码流并为您提供明文。一个选项是PDFtk Server,它将在您的环境中工作。另一种选择是使用Poppler PDF渲染库,它具有命令行实用程序" pdftotext"用于在PDF中搜索字符串。