Question

我要从图像中提取文本：

我尝试使用以下代码提取文本：

from PIL import Image
import pytesseract
img = "Offers.png"
tex = pytesseract.image_to_string(Image.open(img))
string = pytesseract.image_to_string(Image.open(img), config='--psm 6')

我无法提取文字。 tex变量返回一个空字符串，而string变量返回一行文本。

如何从小册子图像中提取完整文本？

编辑1：

由于先前提供的图像质量较差，所以我现在从google图像中提供一些质量相对较好的随机图像。

new image 2

new image 3

现在，当我尝试实现与上面相同的代码以提取文本时，再次无法提取完整文本。

编辑2：

img = cv2.imread('sale-banner-template-design_74379-121.jpg',0)
thesh, im_bw = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY+cv2.THRESH_OTSU)

up_image = cv2.resize(img,None,fx=2,fy=3,interpolation=cv2.INTER_LINEAR)

t = pytesseract.image_to_string(up_image)

Answer 1

消除色彩，不必要的输入并放大图像尺寸。这有助于tesseract大量。您可以使用PIL及其各种模块来完成所有这些操作

Pytesseract不会从低质量图像中提取文本

1 个答案: