从pdf中提取表单数据以进行数据库插入

时间:2019-11-01 17:56:48

标签: c# asp.net asp.net-mvc pdf itext

**我浏览了很多stackoverflow线程,没有一个能解决我的问题

大家好,

我有一个用asp.net mvc制作的c#Web应用程序。我正在尝试创建一个允许管理员将.pdfs上传到系统上的功能。每个pdf都将包含调查,并且每个调查将采用具有不同数据的相同布局。我将需要系统从每个.pdf中提取数据,以便可以将其输入到sql数据库中。

该表单包括复选框和手写文本框。我了解某些OCR库在手写文本方面的成功率非常低,因此我计划使用Google Vision OCR API读取手写文本。我没有OCR库的经验,所以我不确定从哪里开始。

所以我的问题:

  1. 作为程序员,您将如何解决此问题?
  2. 您能推荐最好的OCR库吗? IText7或Iron OCR等?
  3. 这个OCR库是否允许我在.pdf(例如,复选框)中选择某个区域,并检查该区域是否带有刻度?
  4. 这个OCR库是否可以让我提取.pdf(手写文本框)中的某个区域,然后将该区域发送到Google Vision OCR API来提取手写文本?

以下是我将要使用的调查表的示例(我将上载一个.pdf,其中将包含50〜100个调查,每页是一个单独的调查):

Text

0 个答案:

没有答案