我正在尝试将表格从文本文件放到数据框。文本文件是从pdf创建的。我对python来说还比较陌生。我有一个可以处理文本表特定格式的函数。例如,当第二列仅包含MU ../ All用法/ All / MU而没有其他文本,并且第四列的长度小于第五列时,我的代码可以处理。如果第一列具有LM ../(LM ..)/ 3333(仅数字)但没有缩进,它也可以处理。但这对我来说似乎有点困难。由于第二列可能包含除前面提到的句子和单词以外的内容,因此第四列比第五列长,而在另一列中,第一列具有缩进。我对此感到困惑。
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
MU2222 Val text12 text12 text12 high
3333 MU3333 text13 text13 text13
最终数据框应具有5列和3行,如下所示:
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
3333. MU2222 Val text12 text12 text12 high
MU3333 text13 text13 text13
有人可以帮我吗?注意:“文本..”可以是任何句子/多行句子,单词,数字或特殊字符。我一直在尝试在stackoverflow上发布的所有解决方案,尝试使用tabula-py,pypdf2,pdfminer。似乎没有任何帮助。任何帮助将不胜感激。