应用错误收集

训练opencv以识别文档中信息的位置

时间：2019-06-18 08:14:16

标签： python opencv tesseract

我正在尝试从文档中提取信息。下面是我目前的方法：

使用pdf2image将pdf转换为图像
使用opencv findcontours识别框（所有信息都在许多框中）
使用textract将每个框中的图像转换为文本

我现在遇到的问题是我无法将字段名称与值匹配。如下所示：

我的盒子里有很多文字。但是程序无法识别该盒子实际上包含“公司名称”。

理想情况下，我希望结果为{“ Company Name”：“ Dragon Spirits Limited”}

有什么想法吗？

我在考虑指定位置是否有帮助。但是扫描的文档的比例和位置在不同的文档中会稍有不同。

0 个答案:

没有答案