对于这样的数据框:
d = {'id': [1,1,1,2,2], 'Month':[1,2,3,1,3],'Value':[12,23,15,45,34], 'Cost':[124,214,1234,1324,234]}
df = pd.DataFrame(d)
Cost Month Value id
0 124 1 12 1
1 214 2 23 1
2 1234 3 15 1
3 1324 1 45 2
4 234 3 34 2
我应用pivot_table
df2 = pd.pivot_table(df,
values=['Value','Cost'],
index=['id'],
columns=['Month'],
aggfunc=np.sum,
fill_value=0)
得到df2:
Cost Value
Month 1 2 3 1 2 3
id
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
有一种简单的方法来格式化结果数据框列名,如
id Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
如果我这样做:
df2.columns =[s1 + str(s2) for (s1,s2) in df2.columns.tolist()]
我明白了:
Cost1 Cost2 Cost3 Value1 Value2 Value3
id
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
如何摆脱额外的水平?
谢谢!
答案 0 :(得分:10)
使用来自@ chrisb的回答的线索,这给了我正是我所追求的:
df2.reset_index(inplace=True)
给出:
id Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
并且在多个索引列的情况下,this post解释得很好。为了完整,这是如何:
df2.columns = [' '.join(col).strip() for col in df2.columns.values]
答案 1 :(得分:9)
None
是索引名称,您可以将其设置为In [35]: df2.index.name = None
In [36]: df2
Out[36]:
Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
以删除。
id