Hej,
我有以下pandas.DataFrame
df = pandas.DataFrame({
"date": ["2016-12-11", "2016-12-12", "2016-12-13", "2016-12-14", "2016-12-15"],
"dim1": ["dim11", "dim12", "dim12", "dim11", "dim13"],
"dim2": ["dim22", "dim21", "dim21", "dim22", "dim23"],
"dim3": ["dim31", "dim32", "dim32", "dim31", "dim33"],
"val1": [1, 2, 3, 4, 5],
"val2": [6, 7, 8, 9, 10],
"val3": [11,12,13,14,15]
})
我现在想要的是指定多个"尺寸"和多个"值",以便DataFrame 被重新整形/转换,以便指定的尺寸和值被组合"彼此。 未指定的值可能会消失,但指定的维度应保留在生成的DataFrame中。
清楚地说明生成的DataFrame的简单示例。 指定的尺寸为:dim1,dim2 指定值为:val1,val2
df_res = pandas.DataFrame({
"date": ["2016-12-11", "2016-12-12", "2016-12-13", "2016-12-14", "2016-12-15"],
"dim3": ["dim31", "dim32", "dim32", "dim31", "dim33"],
"dim11_dim22_val1": [1, 0, 0, 4, 0],
"dim12_dim21_val1": [0, 2, 3, 0, 0],
"dim13_dim23_val1": [0, 0, 0, 0, 5],
"dim11_dim22_val2": [6, 0, 0, 9, 0],
"dim12_dim21_val2": [0, 7, 8, 0, 0],
"dim13_dim23_val2": [0, 0, 0, 0, 10]
})
所以基本上有dim1,dim2,val1和val2的多种组合。 val3从结果中删除,但维度date_id和dim3保留在那里。
作为旁注:之后我会做一个df_res.to_dict(orient ="记录"),应该输出
[
{"date_id": "2016-12-11", "dim3": "dim31", "dim11_dim22_val1": 1, "dim12_dim21_val1": 0, "dim13_dim23_val1": 0, "dim11_dim22_val2": 6, "dim12_dim21_val2": 0, "dim13_dim23_val2": 0}
...
]
我可以用一些熊猫魔法做到这一点吗? 也许在df.pivot的多个步骤中?
亲切的问候 丹尼斯
答案 0 :(得分:1)
第1部分:
1)您可以设置以 dim 开头的列以及 date ,它将在整个操作期间保持静态作为索引轴。提供append=True
来面对重复的指数。
2)unstack
所需的等级。删除不需要的val3
列并用0填充缺失值。
3)通过连接多索引元组并在它们之间用下划线重命名列。
4)重置与未堆叠相同的级别,并另外对列名称进行排序以匹配所需的输出。
df.set_index(df.filter(like='dim').columns.tolist()+['date'], append=True, inplace=True)
df = df.unstack(level=[2,1]).drop('val3', axis=1).fillna(0).astype(int)
df.columns = ['_'.join(c[::-1]) for c in df.columns]
df_res = df.reset_index(level=[2,1]).sort_index(axis=1)
df_res
第2部分:
df_res.to_dict('r')
产生
[{'date': '2016-12-11',
'dim11_dim22_val1': 1,
'dim11_dim22_val2': 6,
'dim12_dim21_val1': 0,
'dim12_dim21_val2': 0,
'dim13_dim23_val1': 0,
'dim13_dim23_val2': 0,
'dim3': 'dim31'}, ..........