从图像PyTesseract读取数字

时间:2020-07-08 13:37:17

标签: python tesseract cv2 python-tesseract

所以我试图读取图像中的文本,但是遇到一些问题。

图片: original image i'm trying to read

我的代码:

import cv2
import pytesseract


def read_img():
    pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
    return cv2.imread('Images/Image2.png')


def process_text(img):
    names = []
    data = pytesseract.image_to_data(img)
    for x, d in enumerate(data.splitlines()):
        if x != 0:
            d = d.split()
            if len(d) == 12:
                names.append(d[11])

    return names


img = read_img()
print(process_text(img))

结果:

['-', '©', '-', 'AceeZ.Rogue', 'a', '5540', 't', '3', '8', '&', '©', 'LeonGids.Rogue', 'a', 'seas', '8', '3', '8', 'e', 'fl', 'karzheka.Rogue', 'a', '5151', '8', '2', '7', '48', '7', 'Q', 'ripz.Rogue', 'a', '5105', '8', '[', '5s', '27', 'm', 'korey.Rogue', 'a', '5105', '7', '2', '6', '36', '-', '[ZH]', 'Shaiiko.BDS', 'C', '3520', 'a', 'B', 's', '22', 'Cps', 'a', '2012', '8', 'i', '8', '21', 'ypc', 'Chee', 'e', '8', '-_', '22', '3', '(2)', 'Flemzje.BDS', 'a', '2420', 'a', '3', '10', '26', '(SF)', 'Renshiro.BDS', 'C', '2410', '6', '1', '8', 'Fo']

如您所见,这不是我想要的结果。这是我尝试过的;

  1. 拆分图像

我将图像分为两部分,以使其更集中于实际文本:

img1

img2

img1的结果实际上是完美的:

['AceeZ.Rogue', 'LeonGids.Rogue', 'karzheka.Rogue', 'ripz.Rogue', 'korey.Rogue', 'Shaiiko.BDS', 'BriD.BDS', 'RaFaLe.BDS', 'Elemzje.BDS', 'Renshiro.BDS']

但是随着img2问题再次出现:

['5540', '5343', '5151', '5105', '5105', '3520', '29012', '2695', '2420', '2410', '11', '10']

tesseract似乎在读取数字时遇到问题,因为仅带有文本的img1正常吗?我尝试提高文本的质量(letsenhance.io),并提高对比度:

img2 with higher contrast

这些方法都不起作用。

  1. 使用配置选项

我曾尝试使用'--psm 6'和'outbase digits'之类的配置选项,也无法解决问题。

我在此页面上看到可以使用指定的字体进行训练(https://stackoverflow.com/a/53763425/10503012),但可悲的是我不知道该字体,而https://www.myfonts.com/WhatTheFont/却没有给我确切的字体,所以我我假设这也不是一种选择。

所以我的问题是;是否有可能从该图像中提取文本/数字,或者这是一种丢失的情况?我还能做些什么来改善tesseract给我的结果?我认为高对比度的图像应该可以工作,但显然不行。

感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

通常,Tesseract喜欢白色背景上的黑色文本。因此,您应该反转输入图像。您还应该考虑对图像进行阈值处理以使其成为黑白图像。最后,Tesseract可能会对每个字符的大小敏感。我发现在提供的比例下用户名可以识别,但是我不得不将图像缩放1.25才能得出数字。

import cv2
import pytesseract

img = cv2.imread('acerogue.png', cv2.IMREAD_GRAYSCALE)  

thresh = cv2.threshold(img, 100, 255, cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)[1]
thresh = cv2.resize(thresh, (0,0), fx=1.25, fy=1.25)  # scale image 1.25X

detected_text = pytesseract.image_to_string(thresh, config = '--psm 6')
print(detected_text)

给出

| ® AceeZ.Rogue 8 5540 11 2 8 -
© LeonGids.Rogue 8 5343 8 3 8 -

Ww karzheka.Rogue a 5151 8 2 7 48

7 tipz.Rogue a 5105 8 0 5 27
& korey.Rogue a 5105 7 2 6 36

| #4 Shaiiko.BDS B 3520 9 3 8 22
BriD.BDS mH 2912 8 1 8 21

S RaFaLe.BDS BH  —_2605 a 2 8 2

3 BS Elemzje.Bos H 2420 3 3 10 26
Se) Renshiro.BDS m 2410 6 1 8 45

可能您应该先裁剪图像以摆脱图标。