Question

我已经刮掉了一些工作薪水。数据有几种格式（例如，每月，每年，每天）。我希望将所有内容标准化为一个月。

jobs_df['salary']
7       7000 -  8000 a month
9       50000 - 80000 a year
5       80000 - 90000 a year
5       25000 - 28000 a year
4            450 - 600 a day
5               32925 a year
9               48300 a year

我的计划是jobs_df['salary'].str.split('-)并采取工资的平均值。但是，存在类似“一个月”，“一年”，“一天”的文字。绊倒了我。什么是解决这个问题的pythonic方式？

Answer 1

您可以使用findall或extractall获取numeric，转换为floats，最后获得mean：

jobs_df['new'] = pd.DataFrame(jobs_df['salary'].str.findall('(\d+)').values.tolist(),
                              index=jobs_df.index).astype(float).mean(1)
print (jobs_df)
                    salary      new
0     7000 -  8000 a month   7500.0
1     50000 - 80000 a year  65000.0
2     80000 - 90000 a year  85000.0
3     25000 - 28000 a year  26500.0
4          450 - 600 a day    525.0
5             32925 a year  32925.0
6             48300 a year  48300.0

或者：

jobs_df['new'] = jobs_df['salary'].str.extractall('(\d+)')[0].unstack().astype(float).mean(1)
print (jobs_df)
                    salary      new
0     7000 -  8000 a month   7500.0
1     50000 - 80000 a year  65000.0
2     80000 - 90000 a year  85000.0
3     25000 - 28000 a year  26500.0
4          450 - 600 a day    525.0
5             32925 a year  32925.0
6             48300 a year  48300.0

编辑：

m1 = jobs_df['salary'].str.contains('month')
m2 = jobs_df['salary'].str.contains('day')
jobs_df['fin'] =np.select([m1, m2], 
                          [jobs_df['new'] * 12,jobs_df['new'] * 365], default=jobs_df['new'])
print (jobs_df)
                    salary      new       fin
0     7000 -  8000 a month   7500.0   90000.0
1     50000 - 80000 a year  65000.0   65000.0
2     80000 - 90000 a year  85000.0   85000.0
3     25000 - 28000 a year  26500.0   26500.0
4          450 - 600 a day    525.0  191625.0
5             32925 a year  32925.0   32925.0
6             48300 a year  48300.0   48300.0

在熊猫栏中将不同的薪资类型（每年，每月等）转换为每月

1 个答案: