从图像中删除不需要的文本和形状

时间:2019-12-28 14:36:44

标签: python ocr

我正在尝试从图像中提取相关文本,该文本会由于不需要的签名/形状/文本而失真。 我正在上传一张要从中提取诸如 Sub Total Grand Total 之类信息的图像。该图像在此文本上包含图章。如何有效地忽略不想要的图章并提取总计和小计。它想从图像中删除图章和签名

Snippet of the Image

Sample Template Form

下面提供了指向示例模板表单的链接。

1 个答案:

答案 0 :(得分:0)

有关该问题的普遍性的几个问题:

我们得到的图像是 form 和一些 stamp 的叠加。

  1. 表格是固定的,还是可以识别几种表格中的哪一种?
  2. from对齐是否正确(当邮票被随机定向和放置时?)
  3. 我们是否总是在以“总计”和“总计”的形式查找相同的字段,还是要提供要查找的字段列表?

这些问题有助于解决问题。例如,如果表单是固定的,并且我们知道要查找的文本,也许我们可以使用简单的模板匹配来定位文本。