我最近开始学习Tesseract以从图像中提取文本。 现在,以下代码是执行此操作的非常基本的代码。
from PIL import Image
import pytesseract
im = Image.open("img.jpg")
text = pytesseract.image_to_string(im)
print(text)
现在,如果我想优化代码以使其适用于特定类型的图像(例如,身份证的照片),那么如何制作ML模型来做到这一点?
例如如果身份证上的实际文字是-
Name Bob
Dept Sales
Joined 2001
Supervisor Martin
我只想提取与“名称”和“加入”有关的文本