Question

我已尝试将收据图像转换为文字，其代码如下 - 在python 2.7中。

代码： -

from PIL import Image
import pytesseract
from pytesseract import image_to_string

image = Image.open('/home/deepak/Documents/BRVm15K.jpg',mode='r')
txt = pytesseract.image_to_string(image,lang="en")
print(txt)

输出我得到的东西： -

  办公室供应小屋   日期/时间：2009-08-29 10:32 AM

纽约DCA EL＃1371013 EHASD＃I47ZBB   收银员：山姆

OTY ITEM

1 GLUE STICK CLEARANCE 1.99   0476432068904

1个旋转卡片文件25.95   4329323455094

1 MAXLIFE CYAN TONER @ 18.49 ea   5422636437387 18。 49

1 MAXLIFE DESKTOP LASERJET   2342897237346 149 .67

SUBTOTAL 197。 10

税18。 31

总计$ 215.41

我想使用pytesseract方法从 ocr 之后的文本数据中提取感兴趣的信息，如组织名称，日期，描述，总量。

我已经完成了图片到文字数据的任务<收据图片。所以我对数据集＆amp;我如何为深度学习训练模型准备数据集？

我们如何从ocr文本数据中为深度学习模型准备数据集？

0 个答案: