Question

我只是想知道是否可以使用pytesseract这样的OCR自动覆盖图像上的文本？我知道pytesseract可以得到image_to_boxes()，基本上可以得到相应字符的框。但是，我不想掩盖所有角色，仅在必要时（即敏感信息的一部分）掩盖。为此，我可以对image_to_string()结果使用正则表达式搜索，如下所示。

ocr_result = pytesseract.image_to_string(Image.open(my_pic))
list(set(re.findall(my_regex, ocr_result)))

但是，对于image_to_box()，我无法找到那些对应的字符，因为它位于对应于单个字符的位置，例如字符“ a”，它在图像中多次出现，我不知道如何找到对应的“ a”字符。以下是image_to_boxes()输出的示例。

p 1404 1762 1417 1803 0
a 1404 1762 1424 1795 0
...

是否可以将image_to_boxes()映射到image_to_string()结果中以获得正确的字符位置？

我要实现的目标是使流程自动化，以覆盖带有黑框的包含敏感信息的文本部分。有人做过吗？任何帮助将不胜感激。

自动覆盖图像上的文本

0 个答案: