我们如何从ocr文本数据中为深度学习模型准备数据集?

时间:2018-04-30 13:54:38

标签: python python-3.x python-2.7

我已尝试将收据图像转换为文字,其代码如下 - 在python 2.7中。

代码: -

from PIL import Image
import pytesseract
from pytesseract import image_to_string

image = Image.open('/home/deepak/Documents/BRVm15K.jpg',mode='r')
txt = pytesseract.image_to_string(image,lang="en")
print(txt)

输出我得到的东西: -

  办公室供应小屋   日期/时间:2009-08-29 10:32 AM

     

纽约DCA EL#1371013 EHASD#I47ZBB   收银员:山姆

     

OTY ITEM

     

1 GLUE STICK CLEARANCE 1.99   0476432068904

     

1个旋转卡片文件25.95   4329323455094

     

1 MAXLIFE CYAN TONER @ 18.49 ea   5422636437387 18。 49

     

1 MAXLIFE DESKTOP LASERJET   2342897237346 149 .67

     

SUBTOTAL 197。 10

     

税18。 31

     

总计$ 215.41

我想使用pytesseract方法从 ocr 之后的文本数据中提取感兴趣的信息,如组织名称,日期,描述,总量。

我已经完成了图片到文字数据的任务<收据图片。所以我对数据集&amp;我如何为深度学习训练模型准备数据集?

0 个答案:

没有答案