Question

我正在尝试提取该区域中的文本以运行OCR，但是黑色的杂散边缘会干扰某些结果。有没有办法隔离此文本？

找到此轮廓后，我使用黑色背景遮罩将其裁剪出原始图像。我不太确定如何将背景更改为白色，也无法找出一种方法来消除轮廓周围的黑色边缘。对图像进行阈值处理似乎可以消除文本中的一些黑色像素，这是我不想要的。

理想情况下，输出应该只是黑色文本和白色背景。

这是我尝试过的原始蒙版代码中的一部分-

mask = np.ones(orig_img.shape).astype(orig_img.dtype)
cv2.fillPoly(mask, [cnt], (255,255,255))
cropped_contour = cv2.bitwise_and(orig_img, mask)

Answer 1

要隔离文本，一种方法是获取所需ROI的边界框坐标，然后将该ROI蒙版到空白的白色图像上。主要思想是：

将图像转换为灰度
阈值图像
将图像放大以将文本连接为单个边框
查找轮廓并过滤使用的轮廓区域以找到ROI
将ROI放置在面罩上

阈值图像（左）然后膨胀以连接文本（右）

您可以使用cv2.boundingRect()找到轮廓，然后在获得ROI后，可以使用以下方法将ROI放置在蒙版上

mask = np.zeros(image.shape, dtype='uint8')
mask.fill(255)
mask[y:y+h, x:x+w] = original_image[y:y+h, x:x+w]

找到轮廓，然后针对ROI（左），最终结果（右）进行过滤

根据图像大小，可能需要调整轮廓区域的滤镜。

import cv2
import numpy as np

original_image = cv2.imread('1.png')
image = original_image.copy()
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV | cv2.THRESH_OTSU)[1]
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
dilate = cv2.dilate(thresh, kernel, iterations=5)

# Find contours
cnts = cv2.findContours(dilate, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]

# Create a blank white mask
mask = np.zeros(image.shape, dtype='uint8')
mask.fill(255)

# Iterate thorugh contours and filter for ROI
for c in cnts:
    area = cv2.contourArea(c)
    if area < 15000:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        mask[y:y+h, x:x+w] = original_image[y:y+h, x:x+w]

cv2.imshow("mask", mask)
cv2.imshow("image", image)
cv2.imshow("dilate", dilate)
cv2.imshow("thresh", thresh)
cv2.imshow("result", image)
cv2.waitKey(0)

如何制作遮罩以将除文字以外的所有图像背景设置为白色？

1 个答案: