如何建立包含Tesseract的ML模型?

时间:2020-05-03 02:19:20

标签: python machine-learning tesseract text-extraction

我最近开始学习Tesseract以从图像中提取文本。 现在,以下代码是执行此操作的非常基本的代码。

from PIL import Image
import pytesseract
im = Image.open("img.jpg")
text = pytesseract.image_to_string(im)
print(text)

现在,如果我想优化代码以使其适用于特定类型的图像(例如,身份证的照片),那么如何制作ML模型来做到这一点?

例如如果身份证上的实际文字是-

Name Bob
Dept Sales
Joined 2001
Supervisor Martin

我只想提取与“名称”和“加入”有关的文本

0 个答案:

没有答案