我有一个6k列宽的数据框,格式为:
import pandas as pd
df = pd.DataFrame([('jan 1 2000','a','b','c',1,2,3,'aa','bb','cc'), ('jan 2 2000','d', 'e', 'f', 4, 5, 6, 'dd', 'ee', 'ff')],
columns=['date','a_1', 'a_2', 'a_3','b_1', 'b_2', 'b_3','c_1', 'c_2', 'c_3'])
df
date a_1 a_2 a_3 b_1 b_2 b_3 c_1 c_2 c_3
0 jan 1 2000 a b c 1 2 3 aa bb cc
1 jan 2 2000 d e f 4 5 6 dd ee ff
我想要:
我看过: Pandas Melt several groups of columns into multiple target columns by name和Pandas: Multiple columns into one column,但无法形成正确的解决方案。
任何建议都值得赞赏
答案 0 :(得分:3)
使用pd.wide_to_long
和一些数据框重塑。
pd.wide_to_long(df, ['a','b','c'], 'date', 'ID', '_')\
.rename_axis('ID', axis=1)\
.stack()\
.unstack(1)\
.reset_index()
输出:
ID date ID 1 2 3
0 jan 1, 2000 a a b c
1 jan 1, 2000 b 1 2 3
2 jan 1, 2000 c aa bb cc
3 jan 2, 2000 a d e f
4 jan 2, 2000 b 4 5 6
5 jan 2, 2000 c dd ee ff
df在哪里:
df = pd.DataFrame([('jan 1, 2000','a','b','c',1,2,3,'aa','bb','cc'), ('jan 2, 2000','d', 'e', 'f', 4, 5, 6, 'dd', 'ee', 'ff')],
columns=['date','a_1', 'a_2', 'a_3','b_1', 'b_2', 'b_3','c_1', 'c_2', 'c_3'])
df
输入df:
date a_1 a_2 a_3 b_1 b_2 b_3 c_1 c_2 c_3
0 jan 1, 2000 a b c 1 2 3 aa bb cc
1 jan 2, 2000 d e f 4 5 6 dd ee ff
答案 1 :(得分:2)
在包含MultiIndex
的列中创建split
,并在第一级通过DataFrame.stack
进行整形:
df['date'] = pd.to_datetime(df['date'])
df = df.set_index('date')
df.columns = df.columns.str.split('_', expand=True)
df = df.stack(0).rename_axis(('date', 'ID')).reset_index()
print (df)
date ID 1 2 3
0 2000-01-01 a a b c
1 2000-01-01 b 1 2 3
2 2000-01-01 c aa bb cc
3 2000-01-02 a d e f
4 2000-01-02 b 4 5 6
5 2000-01-02 c dd ee ff