我有一个数据列,其列名以一组前缀开头。我想获取以相同前缀开头的列分组的数据框中的值总和。
df = pd.DataFrame([[1,2,3,4],[1,2,3,4],[1,2,3,4],[1,2,3,4]],
columns=['abc', 'abd', 'wxy', 'wxz'])
prefixes = ['ab','wx']
df
abc abd wxy wxz
0 1 2 3 4
1 1 2 3 4
2 1 2 3 4
3 1 2 3 4
我想出办法的唯一方法是循环访问前缀列表,从以该字符串开头的数据框中获取列,然后对结果求和。
results = []
for p in prefixes:
results.append([p, df.loc[:, df.columns.str.startswith(p)].values.sum()])
results = pd.DataFrame(results,)
results.set_index(keys=[0], drop=True).T
ab wx
1 12 28
我希望有一个更优雅的方法,也许可以使用groupby(),但是我无法弄清楚。
答案 0 :(得分:1)
在对列进行切片之后使用groupby
df.groupby(df.columns.str[:-1],axis=1).sum().sum().to_frame().T
Out[317]:
ab wx
0 12 28
更新
l=sum([[x]*df.columns.str.startswith(x).sum() for x in prefixes],[])
df.groupby(l,axis=1).sum().sum().to_frame().T
Out[329]:
ab wx
0 12 28
答案 1 :(得分:1)
首先,有必要确定哪些列包含什么前缀。然后,我们使用它来执行groupby
。
grouper = [next(p for p in prefixes if p in c) for c in df.columns]
u = df.groupby(grouper, axis=1).sum()
ab wx
0 3 7
1 3 7
2 3 7
3 3 7
现在快到了
u.sum().to_frame().T
ab wx
0 12 28
另一种选择是使用np.char.startswith
和argmax
进行矢量化:
idx = np.char.startswith(
df.columns.values[:, None].astype(str), prefixes).argmax(1)
(pd.Series(df.groupby(idx, axis=1).sum().sum().values, index=prefixes)
.to_frame()
.transpose())
ab wx
0 12 28