我有这个数据框:
>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})
>> df
Place Values Var
0 A 250 All
1 A 30 French
2 B 120 All
3 B 12 German
4 C 200 All
5 C 112 Spanish
每个Place
都有两行的重复模式。我想重新整形它,因此它每Place
行一行,Var
列变为两列,一列为“全部”,另一列为另一列。
像这样:
Place All Language Value
A 250 French 30
B 120 German 12
C 200 Spanish 112
数据透视表会为每个唯一值创建一列,我不希望这样。
这是什么重塑方法?
答案 0 :(得分:3)
由于数据以交替模式显示,我们可以分两步概念化转换。
第1步:
从
开始a,a,a
b,b,b
要
a,a,a,b,b,b
第2步:删除冗余列。
以下解决方案将reshape
应用于DataFrame的values
;重塑的参数是(-1, df.shape[1] * 2)
,它表示'给我一个框架,其中包含两倍的列和行数。
然后,我根据您的数据布局硬连线过滤器的列索引:[0, 1, 4, 5]
。生成的numpy
数组有4列,因此我们将其与正确的列名一起传递给DataFrame
构造函数。
这是一个不可读的解决方案,取决于df
布局并以错误的顺序生成列;
import pandas as pd
df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})
df = pd.DataFrame(df.values.reshape(-1, df.shape[1] * 2)[:,[0,1,4,5]],
columns = ['Place', 'All', 'Value', 'Language'])
答案 1 :(得分:2)
另一种方法:
df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})
df1 = df.set_index('Place').pivot(columns='Var')
df1.columns = df1.columns.droplevel()
df1 = df1.set_index('All', append=True).stack().reset_index()
print(df1)
输出:
Place All Var 0
0 A 250.0 French 30.0
1 B 120.0 German 12.0
2 C 200.0 Spanish 112.0