如何使用Python从数据框中的单元格中部分删除内容

时间:2016-09-19 09:54:54

标签: python pandas dataframe removing-whitespace

我有以下数据框:

import pandas as pd    
df = pd.DataFrame([
        ['\nSOVAT\n', 'DVR', 'MEA', '\n195\n'],
        ['PINCO\nGALLO ', 'DVR', 'MEA\n', '195'],
    ])

看起来像这样:

enter image description here

我的目标是分析数据帧的每个单元格,以便:

  • 如果子串\n只出现一次,那么我将它与之前的所有字符一起删除;
  • 如果子串\n在特定单元格中出现多次,那么我会删除所有\n以及之前和之后的内容(除了之间的内容)

代码的输出应为:

enter image description here

注意:到目前为止,我只知道如何使用以下命令删除子字符串之前或之后的内容:

df = df.astype(str).stack().str.split('\n').str[-1].unstack() 
df = df.astype(str).stack().str.split('\n').str[0].unstack() 

然而,由于输出为:

,因此这行代码不能使我获得所需的结果

enter image description here

1 个答案:

答案 0 :(得分:1)

df.replace和一些正则表达式。

In [1]: import pandas as pd
   ...: df = pd.DataFrame([
   ...:         ['\nSOVAT\n', 'DVR', 'MEA', '\n195\n'],
   ...:         ['PINCO\nGALLO ', 'DVR', 'MEA\n', '195'],
   ...:     ])
   ...:

In [2]: df.replace(r'.*\n(.*)\n?.*', r'\1', regex=True)
Out[3]:
        0    1    2    3
0   SOVAT  DVR  MEA  195
1  GALLO   DVR       195