我的数据框看起来像这样
Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
0 A B C A D D A
1 B A C C B A
2 C D
我想将其转换为
Index P1 P2 P3
0 A(P1W1) A(P2W2) A(P3W1)
1 A(P1W3) B(P2W4) A(P3W2)
2 B(P1W1) C(P2W2)
3 B(P1W3) C(P2W3)
4 C(P1W3) D(P2W3)
5 C(P1W4) D(P2W4)
6 D(P1W4)
基本上我想从第一个数据帧获取带有单元格值的列名,然后在P1 P2级别聚合它。
如果需要澄清,请询问
我完全不知道如何使用这个任何帮助将不胜感激
答案 0 :(得分:3)
设置
txt = """\
Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
0 A B C A D D A
1 B A C C B A
2 C D """
df = pd.read_fwf(pd.io.common.StringIO(txt), index_col=0).fillna('')
df
P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
Index
0 A B C A D D A
1 B A C C B A
2 C D
解决方案
d = df + df.columns.map(lambda c: f'({c})')
pd.concat({
g: d.stack().reset_index(drop=True)
for g, d in d.where(df.astype(bool)).groupby(
lambda col: col[:2], 1
)
}, axis=1).fillna('')
P1 P2 P3
0 A(P1W1) A(P2W2) A(P3W1)
1 B(P1W3) D(P2W3) A(P3W2)
2 C(P1W4) D(P2W4)
3 B(P1W1) C(P2W2)
4 A(P1W3) C(P2W3)
5 C(P1W3) B(P2W4)
6 D(P1W4)
详情
添加括在括号中的列
df + df.columns.map(lambda c: f'({c})')
P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
Index
0 A(P1W1) (P1W2) B(P1W3) C(P1W4) (P2W1) A(P2W2) D(P2W3) D(P2W4) A(P3W1) (P3W2) (P3W3) (P3W4)
1 B(P1W1) (P1W2) A(P1W3) (P1W4) (P2W1) C(P2W2) C(P2W3) B(P2W4) (P3W1) A(P3W2) (P3W3) (P3W4)
2 (P1W1) (P1W2) C(P1W3) D(P1W4) (P2W1) (P2W2) (P2W3) (P2W4) (P3W1) (P3W2) (P3W3) (P3W4)
使用蒙版在适当的位置制作NaN
。这将使我们能够在理解中进行堆叠并放弃NaN
以方便使用。
d = df + df.columns.map(lambda c: f'({c})')
d.where(df.astype(bool))
P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
Index
0 A(P1W1) NaN B(P1W3) C(P1W4) NaN A(P2W2) D(P2W3) D(P2W4) A(P3W1) NaN NaN NaN
1 B(P1W1) NaN A(P1W3) NaN NaN C(P2W2) C(P2W3) B(P2W4) NaN A(P3W2) NaN NaN
2 NaN NaN C(P1W3) D(P1W4) NaN NaN NaN NaN NaN NaN NaN NaN
按lambda
分组,它将应用于我们选择的索引对象。我们会选择axis=1
来定位列。