自动覆盖图像上的文本

时间:2019-04-22 23:41:07

标签: python python-3.x ocr tesseract python-tesseract

我只是想知道是否可以使用pytesseract这样的OCR自动覆盖图像上的文本?我知道pytesseract可以得到image_to_boxes(),基本上可以得到相应字符的框。但是,我不想掩盖所有角色,仅在必要时(即敏感信息的一部分)掩盖。为此,我可以对image_to_string()结果使用正则表达式搜索,如下所示。

ocr_result = pytesseract.image_to_string(Image.open(my_pic))
list(set(re.findall(my_regex, ocr_result)))

但是,对于image_to_box(),我无法找到那些对应的字符,因为它位于对应于单个字符的位置,例如字符“ a”,它在图像中多次出现,我不知道如何找到对应的“ a”字符。以下是image_to_boxes()输出的示例。

p 1404 1762 1417 1803 0
a 1404 1762 1424 1795 0
...

是否可以将image_to_boxes()映射到image_to_string()结果中以获得正确的字符位置?

我要实现的目标是使流程自动化,以覆盖带有黑框的包含敏感信息的文本部分。有人做过吗?任何帮助将不胜感激。

0 个答案:

没有答案