我已经刮掉了一些工作薪水。数据有几种格式(例如,每月,每年,每天)。我希望将所有内容标准化为一个月。
jobs_df['salary']
7 7000 - 8000 a month
9 50000 - 80000 a year
5 80000 - 90000 a year
5 25000 - 28000 a year
4 450 - 600 a day
5 32925 a year
9 48300 a year
我的计划是jobs_df['salary'].str.split('-)
并采取工资的平均值。但是,存在类似“一个月”,“一年”,“一天”的文字。绊倒了我。什么是解决这个问题的pythonic方式?
答案 0 :(得分:2)
您可以使用findall
或extractall
获取numeric
,转换为floats
,最后获得mean
:
jobs_df['new'] = pd.DataFrame(jobs_df['salary'].str.findall('(\d+)').values.tolist(),
index=jobs_df.index).astype(float).mean(1)
print (jobs_df)
salary new
0 7000 - 8000 a month 7500.0
1 50000 - 80000 a year 65000.0
2 80000 - 90000 a year 85000.0
3 25000 - 28000 a year 26500.0
4 450 - 600 a day 525.0
5 32925 a year 32925.0
6 48300 a year 48300.0
或者:
jobs_df['new'] = jobs_df['salary'].str.extractall('(\d+)')[0].unstack().astype(float).mean(1)
print (jobs_df)
salary new
0 7000 - 8000 a month 7500.0
1 50000 - 80000 a year 65000.0
2 80000 - 90000 a year 85000.0
3 25000 - 28000 a year 26500.0
4 450 - 600 a day 525.0
5 32925 a year 32925.0
6 48300 a year 48300.0
编辑:
m1 = jobs_df['salary'].str.contains('month')
m2 = jobs_df['salary'].str.contains('day')
jobs_df['fin'] =np.select([m1, m2],
[jobs_df['new'] * 12,jobs_df['new'] * 365], default=jobs_df['new'])
print (jobs_df)
salary new fin
0 7000 - 8000 a month 7500.0 90000.0
1 50000 - 80000 a year 65000.0 65000.0
2 80000 - 90000 a year 85000.0 85000.0
3 25000 - 28000 a year 26500.0 26500.0
4 450 - 600 a day 525.0 191625.0
5 32925 a year 32925.0 32925.0
6 48300 a year 48300.0 48300.0