在熊猫栏中将不同的薪资类型(每年,每月等)转换为每月

时间:2017-10-26 05:46:14

标签: python pandas

我已经刮掉了一些工作薪水。数据有几种格式(例如,每月,每年,每天)。我希望将所有内容标准化为一个月。

jobs_df['salary']
7       7000 -  8000 a month
9       50000 - 80000 a year
5       80000 - 90000 a year
5       25000 - 28000 a year
4            450 - 600 a day
5               32925 a year
9               48300 a year

我的计划是jobs_df['salary'].str.split('-)并采取工资的平均值。但是,存在类似“一个月”,“一年”,“一天”的文字。绊倒了我。什么是解决这个问题的pythonic方式?

1 个答案:

答案 0 :(得分:2)

您可以使用findallextractall获取numeric,转换为floats,最后获得mean

jobs_df['new'] = pd.DataFrame(jobs_df['salary'].str.findall('(\d+)').values.tolist(),
                              index=jobs_df.index).astype(float).mean(1)
print (jobs_df)
                    salary      new
0     7000 -  8000 a month   7500.0
1     50000 - 80000 a year  65000.0
2     80000 - 90000 a year  85000.0
3     25000 - 28000 a year  26500.0
4          450 - 600 a day    525.0
5             32925 a year  32925.0
6             48300 a year  48300.0

或者:

jobs_df['new'] = jobs_df['salary'].str.extractall('(\d+)')[0].unstack().astype(float).mean(1)
print (jobs_df)
                    salary      new
0     7000 -  8000 a month   7500.0
1     50000 - 80000 a year  65000.0
2     80000 - 90000 a year  85000.0
3     25000 - 28000 a year  26500.0
4          450 - 600 a day    525.0
5             32925 a year  32925.0
6             48300 a year  48300.0

编辑:

m1 = jobs_df['salary'].str.contains('month')
m2 = jobs_df['salary'].str.contains('day')
jobs_df['fin'] =np.select([m1, m2], 
                          [jobs_df['new'] * 12,jobs_df['new'] * 365], default=jobs_df['new'])
print (jobs_df)
                    salary      new       fin
0     7000 -  8000 a month   7500.0   90000.0
1     50000 - 80000 a year  65000.0   65000.0
2     80000 - 90000 a year  85000.0   85000.0
3     25000 - 28000 a year  26500.0   26500.0
4          450 - 600 a day    525.0  191625.0
5             32925 a year  32925.0   32925.0
6             48300 a year  48300.0   48300.0