尝试从带有tesseract的日语,英语和数字的图像中提取日语字符

时间:2019-05-20 05:59:56

标签: computer-vision ocr python-tesseract

我正在尝试从包含日语,英语和数字的图像中提取字符。由于我们没有太多图像,因此我尝试使用tesseract对图像进行后期处理,但是仍然无法提供图像中所有字符的输出。

在将图像输入到tesseract中之前,我已经完成了各种预处理步骤,包括:

  1. 重新缩放
  2. 全局阈值(各种二值化)

即使在阈值化和缩放后,tesseract也无法从图像中提取字符。由于我没有足够的数据来训练自己的自定义模型,因此我尝试使用tesseract。

#importing required libraries

import cv2 as cv
import numpy as np
from PIL import Image
import pytesseract

#Rescaling

im = Image.open("test_2.jpg") 
im.save("test_2.tiff", dpi=(300,300))

#global thresholding -- Binarisation
img = cv.imread('test_2.tiff')
grayscaled = cv.cvtColor(img,cv.COLOR_BGR2GRAY)
retval, threshold = cv.threshold(grayscaled, 180, 255, cv.THRESH_BINARY_INV)
cv.imshow('original',img)
cv.imshow('threshold',threshold)
cv.waitKey(0)
cv.destroyAllWindows()
cv.imwrite('Final.jpg',threshold)

text2= pytesseract.image_to_string(Image.open('Final.jpg'),lang='jpn+eng')
print(text2)

请在下面找到输出:

SS パンツタイプ ウルトラジャンボ ALナコ >ド _
交 8ー

選べる4サイズ
  の衝のか

输入图片:
Input Image

输出:
Output

0 个答案:

没有答案