从txt文件到熊猫数据框的表格未对齐

时间:2018-11-17 18:35:58

标签: python text-mining

我正在尝试将表格从文本文件放到数据框。文本文件是从pdf创建的。我对python来说还比较陌生。我有一个可以处理文本表特定格式的函数。例如,当第二列仅包含MU ../ All用法/ All / MU而没有其他文本,并且第四列的长度小于第五列时,我的代码可以处理。如果第一列具有LM ../(LM ..)/ 3333(仅数字)但没有缩进,它也可以处理。但这对我来说似乎有点困难。由于第二列可能包含除前面提到的句子和单词以外的内容,因此第四列比第五列长,而在另一列中,第一列具有缩进。我对此感到困惑。

LM1111      MU1111  Dev      text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                         Text4 text4 

 (LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

           MU2222       Val      text12 text12 text12       high
 3333      MU3333                   text13 text13 text13

最终数据框应具有5列和3行,如下所示:

LM1111      MU1111       Dev       text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                             Text4 text4 

(LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

3333.       MU2222        Val      text12 text12 text12      high
            MU3333                 text13 text13 text13                             

有人可以帮我吗?注意:“文本..”可以是任何句子/多行句子,单词,数字或特殊字符。我一直在尝试在stackoverflow上发布的所有解决方案,尝试使用tabula-py,pypdf2,pdfminer。似乎没有任何帮助。任何帮助将不胜感激。

0 个答案:

没有答案