我有一个角色数据库(作为pd数据框),它有以下变量:个人,公司和年份 - 每个公司 - 年组合只有一个人。
现在,我想创建一个新的数据框,每个独特的公司作为索引,并计算最近一个人在公司中的时间。
E.g。 以下内容应在新数据框中输出A,4和B,2 。
import pandas as pd
d = {'Individual_ID': [1,1,1,1,2,2,2,3,3,4,4,4,4,4],
'Company': ['A','A','A','A','A','A','A','B','B','B','B','B','B','B'],
'Year':[2016,2015,2014,2013,2012,2011,2010,2016,2015,2014,2013,2012,2011,2010]}
df = pd.DataFrame(data=d)
df
答案 0 :(得分:0)
如果Individual_ID
按Company
排序,则可以使用
df = df.groupby('Company')['Individual_ID'].apply(lambda x: (x == x.iat[0]).sum())
print (df)
Company
A 4
B 2
Name: Individual_ID, dtype: int64