我只是想知道是否可以使用pytesseract
这样的OCR自动覆盖图像上的文本?我知道pytesseract
可以得到image_to_boxes()
,基本上可以得到相应字符的框。但是,我不想掩盖所有角色,仅在必要时(即敏感信息的一部分)掩盖。为此,我可以对image_to_string()
结果使用正则表达式搜索,如下所示。
ocr_result = pytesseract.image_to_string(Image.open(my_pic))
list(set(re.findall(my_regex, ocr_result)))
但是,对于image_to_box()
,我无法找到那些对应的字符,因为它位于对应于单个字符的位置,例如字符“ a”,它在图像中多次出现,我不知道如何找到对应的“ a”字符。以下是image_to_boxes()
输出的示例。
p 1404 1762 1417 1803 0
a 1404 1762 1424 1795 0
...
是否可以将image_to_boxes()
映射到image_to_string()
结果中以获得正确的字符位置?
我要实现的目标是使流程自动化,以覆盖带有黑框的包含敏感信息的文本部分。有人做过吗?任何帮助将不胜感激。