鉴于人力资源员工的薪级和薪资数据集,我希望确定每个员工的薪资和薪资是否都发生了变化。
我能够使用.diff()pandas函数来执行此操作,但是当第二个雇员进来时,它将获取最后一个雇员数据,这不是我期望的。我希望对每个员工使用.diff()函数或其他方式。
这是到目前为止使用的代码。
import pandas as pd
# This is my Dataset
hr = pd.DataFrame({'Employee': ['100201', '100201', '100201',
'100201', '100201', '100201','100299', '100299'],
'Month/Year': ['01.2018', '02.2018', '03.2018',
'04.2018', '05.2018', '06.2018','01.2019', '02.2019'],
'Salary': [12175, 13000, 13000, 13125, 14000,
14000, 20000, 21000],
'Grade': [1, 1, 2, 2, 2, 1, 3, 4],
'Position': [1, 1, 2, 2, 2, 2, 3, 4]})
hr
# This is how I check the diff from each month:
hr.set_index('Employee')
hr['Increase'] = hr['Salary'].diff(1)
hr['Grade Change'] = hr['Grade'].diff(1)
hr
# Finally just apply a lambda function
hr['Promotion'] = hr['Increase'].apply(lambda x: x > 0 )
hr['Grade Increase'] = hr['Grade Change'].apply(lambda x: x != 0 )
hr
如您在结果中所见:
我能够理解员工100201的所有职等和薪资变动。但是,对于员工100299,代码从员工100299的索引5中提取了薪水14000,因此提到薪金有6000变动。实际上,员工100299仅在01.2019才加入,开始时的薪水为20000。在02.2019,薪水的变化是正确的。
我真正希望的是在数据集中有新员工时进行一次休息。
我是Python和Pandas的新手,所以这会有所帮助。预先感谢!
答案 0 :(得分:1)
将DataFrame.groupby
与groupby 'Employee'
一起使用:
hr[['Salary_increase', 'Grade_change']] = hr.groupby('Employee')[['Salary', 'Grade']].diff()
hr[['Promotion', 'Grade_increase']] = hr[['Salary', 'Grade']].diff().gt(0)
[出]
Employee Month/Year Salary Grade Position Salary_increase Grade_change \
0 100201 01.2018 12175 1 1 NaN NaN
1 100201 02.2018 13000 1 1 825.0 0.0
2 100201 03.2018 13000 2 2 0.0 1.0
3 100201 04.2018 13125 2 2 125.0 0.0
4 100201 05.2018 14000 2 2 875.0 0.0
5 100201 06.2018 14000 1 2 0.0 -1.0
6 100299 01.2019 20000 3 3 NaN NaN
7 100299 02.2019 21000 4 4 1000.0 1.0
Promotion Grade_increase
0 False False
1 True False
2 False True
3 True False
4 True False
5 False False
6 True True
7 True True