我已尝试将收据图像转换为文字,其代码如下 - 在python 2.7中。
代码: -
from PIL import Image
import pytesseract
from pytesseract import image_to_string
image = Image.open('/home/deepak/Documents/BRVm15K.jpg',mode='r')
txt = pytesseract.image_to_string(image,lang="en")
print(txt)
输出我得到的东西: -
办公室供应小屋 日期/时间:2009-08-29 10:32 AM纽约DCA EL#1371013 EHASD#I47ZBB 收银员:山姆
OTY ITEM
1 GLUE STICK CLEARANCE 1.99 0476432068904
1个旋转卡片文件25.95 4329323455094
1 MAXLIFE CYAN TONER @ 18.49 ea 5422636437387 18。 49
1 MAXLIFE DESKTOP LASERJET 2342897237346 149 .67
SUBTOTAL 197。 10
税18。 31
总计$ 215.41
我想使用pytesseract方法从 ocr 之后的文本数据中提取感兴趣的信息,如组织名称,日期,描述,总量。
我已经完成了图片到文字数据的任务<收据图片。所以我对数据集&amp;我如何为深度学习训练模型准备数据集?