Pytesseract不会从低质量图像中提取文本

时间:2019-06-06 10:00:43

标签: python tesseract python-tesseract

我要从图像中提取文本:

image

我尝试使用以下代码提取文本:

from PIL import Image
import pytesseract
img = "Offers.png"
tex = pytesseract.image_to_string(Image.open(img))
string = pytesseract.image_to_string(Image.open(img), config='--psm 6')

我无法提取文字。 tex变量返回一个空字符串,而string变量返回一行文本。

如何从小册子图像中提取完整文本?

编辑1:

由于先前提供的图像质量较差,所以我现在从google图像中提供一些质量相对较好的随机图像。

new image 2

new image 3

现在,当我尝试实现与上面相同的代码以提取文本时,再次无法提取完整文本。

编辑2:

img = cv2.imread('sale-banner-template-design_74379-121.jpg',0)
thesh, im_bw = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY+cv2.THRESH_OTSU)

up_image = cv2.resize(img,None,fx=2,fy=3,interpolation=cv2.INTER_LINEAR)

t = pytesseract.image_to_string(up_image)

1 个答案:

答案 0 :(得分:0)

消除色彩,不必要的输入并放大图像尺寸。这有助于tesseract大量。您可以使用PIL及其各种模块来完成所有这些操作