Tesseract没有拿起不同颜色的文字

时间:2018-01-30 20:53:38

标签: python ocr tesseract python-tesseract

我正在尝试制作一个程序,使用tesseract和python从截图中删除文本,并且没有问题得到它的一部分,但是有些文本颜色较浅,并且没有被tesseract拾取。以下是我正在使用的图片示例:

enter image description here

我是要将图片放在图片的顶部,而不是下面的3个选项。

以下是我用来抓取文本的代码

result = pytesseract.image_to_string(
            screen, config="load_system_dawg=0 load_freq_dawg=0")

        print("below is the total value scraped by the tesseract")
        print(result)

        # Split up newlines until we have our question and answers
        parts = result.split("\n\n")

        question = parts.pop(0).replace("\n", " ")
        q_terms = question.split(" ")
        q_terms = list(filter(lambda t: t not in stop, q_terms))
        q_terms = set(q_terms)

        parts = "\n".join(parts)
        parts = parts.split("\n")

        answers = list(filter(lambda p: len(p) > 0, parts))

当我的黑色纯文本没有彩色背景时,我可以通过下面的3个选项填充answers数组,但不是在这种情况下。我有什么方法可以解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

您错过了binarization, or thresholding步骤。

在您的情况下,您只需在灰度图像上应用二进制阈值。

以下是threshold = 177 enter image description here

的结果图片

Here1 you can learn more about Thresholding with opencv python library