试图开发一个脚本,将图像读入OpenCV并将所有垃圾数据删除为线和点,以便tesseract可以轻松读取。
下面是传递给OpenCV的实际图像
这是读取图像中的代码并对其进行尽可能清理的代码,但对于tesseract来说仍然不够干净。
import numpy as np
import cv2
img = cv2.imread('test4.jpg',0)
cv2.imshow('image',img)
horizontal_inv = cv2.bitwise_not(img)
masked_img = cv2.bitwise_and(img, img)
masked_img_inv = cv2.bitwise_not(masked_img)
kernel = np.ones((3,3),np.uint8)
dilation = cv2.dilate(masked_img_inv, kernel)
cv2.imwrite("result1.jpg", dilation)
这是脚本之后获得的图像
如何通过这种方式改进脚本,使字母变粗并消除细线?