enter image description here具有非结构化的报告或发票(空格、、、 / :、数字,字母,@@,无模式)
App:人力资源管理
粒度:寻求详细信息
供应商:公开
实例:交货
日期-时间:2018/03/05 19:37:10
内容发票
来自JBR-0560-00089000的发票
Delivery:
Network:
实体:合作伙伴
地区:
财务:还清
任务:重要
自然
实例类型和传输
详细信息
(转移)发送到站点(区域)
交货产品
状态:
交货性质:正常
验证4859nb576ZNP57387f7df7df8
参考:无
回覆
Sender Details: xxx debt of a Invoice bill
Daily need Pvt LIMITED
Denmark
接收器:保洁
详细信息:杜比
第1列:发票编号
Ab2345345 @@
第2栏:日期
2009年5月12日2009年5月12日
专栏3:政策
国家政策最近更新
第4列:
第5栏: 第6栏: .....................
通过使用Tesseract读取在NOTEPAD上提取的相同图像,我获得了带有交易细节的图像。现在,从记事本中仅需要提取列及其值。
我用';'分隔了整个文本文件然后数据变成每一行每一行。
将熊猫作为pd导入 df = pd.read_csv(r'C:\ Desktop \ data_ge.txt',sep =“;”,encoding =“ utf8”) df.head(30)
输出:
有报告或发票
应用:人力资源管理
粒度:寻求详细信息
供应商:公开
实例:交货
日期-时间:2018/03/05 19:37:10 JBR-0560-00089000中的内容发票发票
交货时间:
网络:
实体:合作伙伴
地区:
财务:还清
任务:重要
自然
实例类型和传输
详细信息
(转移)发送到站点(区域)
交货产品
状态:
交货性质:正常
验证4859nb576ZNP57387f7df7df8
参考:无