您好我已将csv文件导入为pandas数据帧,并尝试执行以下操作。
数据框模型:
STATE County POP
1 Alabama Autauga County 54571
2 Alabama Baldwin County 182265
3 Alabama Barbour County 27457
...
3168 Wisconsin Wood County 74749
3170 Wyoming Albany County 36299
3171 Wyoming Big Horn County 11668
3172 Wyoming Campbell County 46133
1。)获取每州最佳两个县的名单
2。)获取每个州的前两个县的总和
3.)列出人口最多的前两个州从大到小排序
我能够使用以下内容完成第1项。有没有办法可以从这个输出中删除索引值?
census_df.groupby('STATE')['POP'].nlargest(2)
STATE
Alabama 37 658466
49 412992
Alaska 71 291826
76 97581
Arizona 106 3817117
109 980263
Arkansas 174 382748
118 221339
但是当我尝试对系列中的每个项目求和时,它总结了整个系列。
x.sum()
有没有办法对系列中的每个项目求和?另外,我不确定我是否使用最有效的方法来收集此信息。任何帮助将不胜感激。
我想要的输出是:
人口最多的两个州:
STATE POP_SUM
Arkansas 382748
Wisconsin 271431
答案 0 :(得分:0)
如果我正确理解了这个问题 - 您可以将x.sum(level=0)
参数传递给sum以保持按状态分组:
MIMEText