重塑/转换pandas.Dataframe

时间:2017-01-20 11:25:58

标签: python-3.x pandas reshape

Hej,

我有以下pandas.DataFrame

df = pandas.DataFrame({
  "date": ["2016-12-11", "2016-12-12", "2016-12-13", "2016-12-14", "2016-12-15"], 
  "dim1": ["dim11", "dim12", "dim12", "dim11", "dim13"],
  "dim2": ["dim22", "dim21", "dim21", "dim22", "dim23"],
  "dim3": ["dim31", "dim32", "dim32", "dim31", "dim33"],
  "val1": [1, 2, 3, 4, 5],
  "val2": [6, 7, 8, 9, 10],
  "val3": [11,12,13,14,15]
  })

我现在想要的是指定多个"尺寸"和多个"值",以便DataFrame 被重新整形/转换,以便指定的尺寸和值被组合"彼此。 未指定的值可能会消失,但指定的维度应保留在生成的DataFrame中。

清楚地说明生成的DataFrame的简单示例。 指定的尺寸为:dim1,dim2 指定值为:val1,val2

df_res = pandas.DataFrame({
  "date": ["2016-12-11", "2016-12-12", "2016-12-13", "2016-12-14", "2016-12-15"],
  "dim3": ["dim31", "dim32", "dim32", "dim31", "dim33"],
  "dim11_dim22_val1": [1, 0, 0, 4, 0],
  "dim12_dim21_val1": [0, 2, 3, 0, 0],
  "dim13_dim23_val1": [0, 0, 0, 0, 5],
  "dim11_dim22_val2": [6, 0, 0, 9, 0],
  "dim12_dim21_val2": [0, 7, 8, 0, 0],
  "dim13_dim23_val2": [0, 0, 0, 0, 10]
})

所以基本上有dim1,dim2,val1和val2的多种组合。 val3从结果中删除,但维度date_id和dim3保留在那里。

作为旁注:之后我会做一个df_res.to_dict(orient ="记录"),应该输出

[
  {"date_id": "2016-12-11", "dim3": "dim31", "dim11_dim22_val1": 1, "dim12_dim21_val1": 0, "dim13_dim23_val1": 0, "dim11_dim22_val2": 6, "dim12_dim21_val2": 0, "dim13_dim23_val2": 0}
  ...
]

我可以用一些熊猫魔法做到这一点吗? 也许在df.pivot的多个步骤中?

亲切的问候 丹尼斯

1 个答案:

答案 0 :(得分:1)

第1部分:

1)您可以设置以 dim 开头的列以及 date ,它将在整个操作期间保持静态作为索引轴。提供append=True来面对重复的指数。

2)unstack所需的等级。删除不需要的val3列并用0填充缺失值。

3)通过连接多索引元组并在它们之间用下划线重命名列。

4)重置与未堆叠相同的级别,并另外对列名称进行排序以匹配所需的输出。

df.set_index(df.filter(like='dim').columns.tolist()+['date'], append=True, inplace=True)
df = df.unstack(level=[2,1]).drop('val3', axis=1).fillna(0).astype(int)
df.columns = ['_'.join(c[::-1]) for c in df.columns]
df_res = df.reset_index(level=[2,1]).sort_index(axis=1)
df_res

enter image description here

第2部分:

df_res.to_dict('r')

产生

[{'date': '2016-12-11',
  'dim11_dim22_val1': 1,
  'dim11_dim22_val2': 6,
  'dim12_dim21_val1': 0,
  'dim12_dim21_val2': 0,
  'dim13_dim23_val1': 0,
  'dim13_dim23_val2': 0,
  'dim3': 'dim31'}, ..........