Question

您好我已将csv文件导入为pandas数据帧，并尝试执行以下操作。

数据框模型：

         STATE       County                  POP
1       Alabama      Autauga County          54571
2       Alabama      Baldwin County         182265
3       Alabama      Barbour County          27457
...
3168  Wisconsin         Wood County          74749
3170    Wyoming       Albany County          36299
3171    Wyoming     Big Horn County          11668
3172    Wyoming     Campbell County          46133

1。）获取每州最佳两个县的名单

2。）获取每个州的前两个县的总和

3.）列出人口最多的前两个州从大到小排序

我能够使用以下内容完成第1项。有没有办法可以从这个输出中删除索引值？

census_df.groupby('STATE')['POP'].nlargest(2)

STATE                    
Alabama               37       658466
                      49       412992
Alaska                71       291826
                      76        97581
Arizona               106     3817117
                      109      980263
Arkansas              174      382748
                      118      221339

但是当我尝试对系列中的每个项目求和时，它总结了整个系列。

x.sum()

有没有办法对系列中的每个项目求和？另外，我不确定我是否使用最有效的方法来收集此信息。任何帮助将不胜感激。

我想要的输出是：

人口最多的两个州：

STATE     POP_SUM                  
Arkansas  382748
Wisconsin 271431

Answer 1

如果我正确理解了这个问题 - 您可以将x.sum(level=0)参数传递给sum以保持按状态分组：

MIMEText

对熊猫系列中的每个项目求和并按最大值排序

1 个答案: