我正在使用Python 3.6,并且正在尝试从数据集的子组中获取统计信息。例如,主要分组因子是Uni
和year
。在这里,我希望获得其他分组的一些基本统计数据,例如,参加科学课程的女性人数,人数或学生人数及其比例。
进行直接计数的风险是可能会有一些重复计数。 我已经解决了重复计算的问题,但是考虑到有成千上万的学生以及更多的大学和年份,代码似乎太长了,第一次分组花费的时间确实很长。 我希望那里还有其他更有效的答案。
df1 = pd.DataFrame([('USC', 2009, 'A', 'X', 'Science', 'F', 50),
('USC', 2009, 'A', 'Y', 'Science', 'F', 50),
('USC', 2009, 'A', 'Z', 'Arts', 'F', 500),
('USC', 2009, 'A', 'W', 'Arts', 'F', 50),
('USC', 2009, 'B', 'W', 'Arts', 'M', 500),
('USC', 2009, 'B', 'Z', 'Arts', 'M', 50),
('USC', 2009, 'C', 'X', 'Science', 'F', 50),
('USC', 2009, 'C', 'Y', 'Science', 'F', 500),
('USC', 2009, 'C', 'W', 'Arts', 'F', 50),
('USC', 2010, 'D', 'X', 'Science', 'M', 50),
('USC', 2010, 'D', 'Y', 'Science', 'M', 500),
('USC', 2010, 'D', 'W', 'Arts', 'M', 50),
('USC', 2010, 'E', 'X', 'Science', 'M', 50),
('USC', 2010, 'E', 'Y', 'Science', 'M', 500),
('USC', 2010, 'E', 'W', 'Arts', 'M', 50)],
columns=('Uni', 'year', 'student','course','faculty','gender', 'fee'))
用于编译最终数据的复杂代码是:
# first grouping - eliminating duplicities
data_tmp = df1.groupby(['Uni', 'year','student'])
data_gds = data_tmp.agg({'fee': 'sum'})
data_prc = (data_gds
.join(data_tmp['gender'].apply(lambda x: 1 if (x[x == 'F'].count()>0) else 0))
.join(data_tmp['faculty'].apply(lambda x: 1 if (x[x == 'Science'].count()>0) else 0 ))
.reset_index()
)
# second grouping - eliminating students
data_tmp = data_prc.groupby(['Uni', 'year'])
data_gds = data_tmp['student'].apply(lambda x: x.unique().shape[0]).to_frame('Num_student')
data_prc = (data_gds
.join(data_tmp.agg({'fee': 'sum'}))
.join(data_tmp.agg({'gender': 'sum'}).rename(columns={'gender': 'gender_female'}) )
.join(data_tmp.agg({'faculty':'sum'}).rename(columns={'faculty': 'faculty_Science'}))
.reset_index()
)
# adding percetages here
data_prc['Prc_Female'] = data_prc['gender_female']/data_prc['Num_student']
data_prc['Prc_Science'] = data_prc['faculty_Science']/data_prc['Num_student']
此外,我实际上并不需要使用费用总和,但是似乎使用聚合允许我使用联接。似乎联接语句是花费较长时间的语句,我希望有一种避免使用它们(或使其变得更好)的方法。
答案 0 :(得分:1)
我们可以大大简化您当前的代码,也不需要lambdas
。
def make_stats(df):
base = df.groupby(['Uni', 'year'], as_index=False) \
.agg({'student': pd.Series.nunique, 'fee': sum}) \
.rename(columns={'student': 'num_student'})
females = df[df.gender == 'F'].groupby(['Uni', 'year'], as_index=False) \
.agg({'student': pd.Series.nunique}) \
.rename(columns={'student': 'gender_female'})
science = df[df.faculty == 'Science'].groupby(['Uni', 'year'], as_index=False) \
.agg({'course': pd.Series.nunique}) \
.rename(columns={'course': 'faculty_science'})
kwargs = {'how': 'left',
'left_on': ['Uni', 'year'],
'right_on': ['Uni', 'year']}
step_1 = pd.merge(base, females, **kwargs)
step_2 = pd.merge(step_1, science, **kwargs).fillna(0)
step_2['prc_female'] = step_2['gender_female'] / step_2['num_student']
step_2['prc_science'] = step_2['faculty_science'] / step_2['num_student']
return step_2
output = make_stats(df1)
print(output)
Uni year num_student fee gender_female faculty_science prc_female prc_science
0 USC 2009 3 1800 2.0 2 0.666667 0.666667
1 USC 2010 2 1200 0.0 2 0.000000 1.000000