提取带有合并单元格的pdf发票表

时间:2019-01-05 02:16:58

标签: python-3.x pdf-extraction

我正在尝试从PDF发票中提取信息。但是我的发票有很多合并单元格。我尝试过表格,但它无法重新调节那些细胞。有更好的解决方案吗?

以下是invoice的示例:

enter image description here

我要做的是让摘录重新符合描述列,这是一个长字符串,如下所示:

              Description                         Quantity  
0            Mechanical seal Type....                  1.00  
1            Pick up                                   NAN

不要像这样将它们分成多行:

                 Description                  Quantity  
0            Random Sample                        NaN   
1            Type: etc                           1.00   
2            Material:etc                         NaN   
3            Picked up                            NaN 

0 个答案:

没有答案