应用错误收集

我最近开始学习Tesseract以从图像中提取文本。现在，以下代码是执行此操作的非常基本的代码。

from PIL import Image
import pytesseract
im = Image.open("img.jpg")
text = pytesseract.image_to_string(im)
print(text)

现在，如果我想优化代码以使其适用于特定类型的图像（例如，身份证的照片），那么如何制作ML模型来做到这一点？

例如如果身份证上的实际文字是-

Name Bob
Dept Sales
Joined 2001
Supervisor Martin

我只想提取与“名称”和“加入”有关的文本