从文本文件(报表或发票)中提取特定数据

时间:2019-06-27 15:24:56

标签: python nlp

enter image description here具有非结构化的报告或发票(空格、、、 / :、数字,字母,@@,无模式)

App:人力资源管理
   粒度:寻求详细信息
   供应商:公开
                                                            实例:交货
                                                       日期-时间:2018/03/05 19:37:10

内容发票

来自JBR-0560-00089000的发票

                                       Delivery:            
                                       Network:                       

实体:合作伙伴
                                           地区:
  财务:还清
                                           任务:重要
                                           自然
 实例类型和传输

详细信息
                              (转移)发送到站点(区域)
 交货产品
          状态:
         交货性质:正常

验证4859nb576ZNP57387f7df7df8
              参考:无
 回覆

                                          Sender Details:   xxx debt of a Invoice bill                                                                                     

                                                             Daily need Pvt LIMITED
                                Denmark                                           

接收器:保洁

详细信息:杜比

第1列:发票编号
           Ab2345345 @@
第2栏:日期
           2009年5月12日2009年5月12日
专栏3:政策
           国家政策最近更新

第4列:

第5栏: 第6栏: .....................

通过使用Tesseract读取在NOTEPAD上提取的相同图像,我获得了带有交易细节的图像。现在,从记事本中仅需要提取列及其值。

我用';'分隔了整个文本文件然后数据变成每一行每一行。

将熊猫作为pd导入 df = pd.read_csv(r'C:\ Desktop \ data_ge.txt',sep =“;”,encoding =“ utf8”) df.head(30)

输出:

有报告或发票 应用:人力资源管理
粒度:寻求详细信息
供应商:公开
实例:交货
日期-时间:2018/03/05 19:37:10 JBR-0560-00089000中的内容发票发票
交货时间:
网络:
实体:合作伙伴
地区:
财务:还清
任务:重要 自然
实例类型和传输
详细信息
(转移)发送到站点(区域)
交货产品
状态:
交货性质:正常
验证4859nb576ZNP57387f7df7df8
参考:无

0 个答案:

没有答案