我有一个县的候选人投票的df。 (600 X 1192)
我需要将原始df分组以选择总投票的候选人> 50(行和)和具有总投票的Countys> 100(列总和)
在原始数据上,我没有候选人,县的总数。
import pandas as pd
import numpy as np
df1 = pd.DataFrame([["cand1", 10,100, 1, 1000, 10, 100],["cand2",20,1000, 2, 20, 0, 20],["cand3", 30,5000, 3, 30, 0, 3], ["cand4",40, 1, 4, 1, 0, 4], ["cand5",50, 50, 0,20, 0,2]],
columns=['candidate',"code", 'county1', 'county2', 'county3', 'county4', 'county5'])
df1
结果必须是:
df2 = pd.DataFrame([["cand1", 10,100, 1000, 100],["cand2",20,1000, 20, 20],["cand3",30, 5000, 30, 3], ["cand5",50, 50, 20, 2]],
columns=['candidate',"code", 'county1', 'county3', 'county5'])
df2
感谢您帮助解决我的问题
答案 0 :(得分:2)
使用布尔索引:
df1.set_index(['candidate', 'code']).loc[
lambda x: x.sum(axis=1) > 50, lambda x: x.sum(axis=0) > 100
]
lambdas允许操作员链接,但如果你想要一个更干净的方式,你也可以
df1 = df1.set_index(['candidate', 'code'])
df1.loc[df1.sum(axis=1) > 50, df1.sum(axis=0) > 100]
两者都屈服
county1 county3 county5
candidate code
cand1 10 100 1000 100
cand2 20 1000 20 20
cand3 30 5000 30 3
cand5 50 50 20 2
其中候选列和代码列是DataFrame的索引。如果您希望将它们作为常规列,则可以在最后调用reset_index()
。