基于正则表达式识别列并填充不同默认值的优雅方法

时间:2019-06-28 09:47:21

标签: python regex python-3.x pandas dataframe

我有一个数据框,可以从下面的代码中生成

df = pd.DataFrame({'person_id' :[1,2,3],'date1':['12/31/2007','11/25/2009',np.nan],
           'hero_id':[2,4,np.nan],'date2':['12/31/2017',np.nan,'10/06/2015'],
           'heroine_id':[1,np.nan,5],'date3':['12/31/2027','11/25/2029',np.nan],
           'bud_source_value':[1250000,250000,np.nan],
           'prod__source_value':[10000,20000,np.nan]})

数据框如下所示,其中有Nan的

enter image description here

我想做的是

1)对于以“ id”结尾的列,用0(零)填充na。 2)对于以“值”结尾的列,用“未知”填充na 3)对于以“日期”开头的列,用“ 12/31/9999”填充na

我尝试了以下方法,但是它很冗长,感觉并不优雅

df2 = df.filter(regex='id$')
df2.fillna(0)

df2 = df.filter(regex='^date')
df2.fillna('12/31/9999')

df2 = df.filter(regex='value$')
df2.fillna('unknown')

有没有一口气做到这一点?如您所见,我有点重复相同的步骤

2 个答案:

答案 0 :(得分:3)

对于根据多种条件的多种选择,可以使用np.select

import numpy as np

# choices
c = df.columns.str
c1 = c.endswith('id')
c2 = c.endswith('value')
c3 = c.startswith('date')

out = np.select([c1,c2,c3], [df.fillna(0), df.fillna('unknown'), df.fillna("12/31/9999")])
pd.DataFrame(out, columns=df.columns)

    person_id   date1     hero_id  date2       heroine_id  date3  \
0         1  12/31/2007       2  12/31/2017          1  12/31/2027   
1         2  11/25/2009       4  12/31/9999          0  11/25/2029   
2         3  12/31/9999       0  10/06/2015          5  12/31/9999   

      bud_source_value prod__source_value  
0         1.25e+06              10000  
1           250000              20000  
2          unknown            unknown 

答案 1 :(得分:3)

您可以将DataFrame.fillna与字典一起使用:

d = {col:value for col_s,value in zip(['id','value','date'], [0,'unknown','12/31/9999']) for col in df.filter(like=col_s)}

df = df.fillna(d)

print(df)
   person_id       date1  hero_id       date2  heroine_id       date3  \
0          1  12/31/2007      2.0  12/31/2017         1.0  12/31/2027   
1          2  11/25/2009      4.0  12/31/9999         0.0  11/25/2029   
2          3  12/31/9999      0.0  10/06/2015         5.0  12/31/9999   

  bud_source_value prod__source_value  
0         1.25e+06              10000  
1           250000              20000  
2          unknown            unknown  

print(d)
{'person_id': 0,
 'hero_id': 0,
 'heroine_id': 0,
 'bud_source_value': 'unknown',
 'prod__source_value': 'unknown',
 'date1': '12/31/9999',
 'date2': '12/31/9999',
 'date3': '12/31/9999'}