将pandas数据框重塑为与重复行一样多的列

时间:2016-04-01 14:56:31

标签: python pandas

我有这个数据框:

>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

>> df
  Place  Values      Var
0     A     250      All
1     A      30   French
2     B     120      All
3     B      12   German
4     C     200      All
5     C     112  Spanish

每个Place都有两行的重复模式。我想重新整形它,因此它每Place行一行,Var列变为两列,一列为“全部”,另一列为另一列。

像这样:

Place   All   Language   Value
    A   250     French      30
    B   120     German      12
    C   200     Spanish    112

数据透视表会为每个唯一值创建一列,我不希望这样。

这是什么重塑方法?

2 个答案:

答案 0 :(得分:3)

由于数据以交替模式显示,我们可以分两步概念化转换。

第1步:

开始
a,a,a
b,b,b

a,a,a,b,b,b

第2步:删除冗余列。

以下解决方案将reshape应用于DataFrame的values;重塑的参数是(-1, df.shape[1] * 2),它表示'给我一个框架,其中包含两倍的列和行数。

然后,我根据您的数据布局硬连线过滤器的列索引:[0, 1, 4, 5]。生成的numpy数组有4列,因此我们将其与正确的列名一起传递给DataFrame构造函数。

这是一个不可读的解决方案,取决于df布局并以错误的顺序生成列;

import pandas as pd

df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

df = pd.DataFrame(df.values.reshape(-1, df.shape[1] * 2)[:,[0,1,4,5]],
    columns = ['Place', 'All', 'Value', 'Language'])

答案 1 :(得分:2)

另一种方法:

df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

df1 = df.set_index('Place').pivot(columns='Var')

df1.columns = df1.columns.droplevel()

df1 = df1.set_index('All', append=True).stack().reset_index()

print(df1)

输出:

  Place    All      Var      0
0     A  250.0   French   30.0
1     B  120.0   German   12.0
2     C  200.0  Spanish  112.0