PDF数据提取

时间:2015-11-24 02:19:57

标签: pdf pdf-scraping

通过突出显示所需的字段,我有办法拍摄扫描的PDF图像并从图像中提取数据吗?我们每天扫描成千上万的房地产行为的PDF图像,并希望能够自动化数据输入过程。我们面临的问题是没有两件事是一样的。

1 个答案:

答案 0 :(得分:0)

在评论中已经说过Stackoverflow主要是关于编程问题。

尽管如此,仍有可能,具体取决于实际文件和待处理的卷。

在高端,有一种名为Teleform的产品,最初由Cardiff开发,现在由HP拥有,用于处理纸张形式;您还可以查看业务流程应用程序Cardiff LiquidOffice,现在是HP LiquidOffice。

在低端,我开发了一个PDF格式的应用程序,在Acrobat下运行,可以采用扫描和OCRd格式,并将数据传输到专门准备的可填写表单,从中可以将数据导出到数据库, 例如。欲了解更多信息,演示和报价,请随时与我联系。

如果你想使用Acrobat开发一些东西,你也可以从OCRd文档开始,然后使用Redaction函数的功能(或使用Appligent的工业强度Redaction工具Redax)来查找关键字,然后使用这些关键字的位置信息,以提取更多数据。