训练opencv以识别文档中信息的位置

时间:2019-06-18 08:14:16

标签: python opencv tesseract

我正在尝试从文档中提取信息。下面是我目前的方法:

  1. 使用pdf2image将pdf转换为图像
  2. 使用opencv findcontours识别框(所有信息都在许多框中)
  3. 使用textract将每个框中的图像转换为文本

我现在遇到的问题是我无法将字段名称与值匹配。 如下所示: enter image description here

我的盒子里有很多文字。但是程序无法识别该盒子实际上包含“公司名称”。

理想情况下,我希望结果为{“ Company Name”:“ Dragon Spirits Limited”}

有什么想法吗?

我在考虑指定位置是否有帮助。但是扫描的文档的比例和位置在不同的文档中会稍有不同。

0 个答案:

没有答案