Pandas使用指定(附加)列进行透视

时间:2017-06-07 07:29:52

标签: python pandas pivot

我有两个不同的元组列表,它们被转换为pandas数据帧:

ls1 = [(1,"A",2),(1,"B",1),(1,"C",3),(2,"A",4),(2,"B",4,),(2,"C",5)]
ls2 = [(1,"A",2),(1,"C",3),(1,"B",1),(1,"D",6),(2,"A",4),(2,"C",5),(2,"B",4,)]
df1 = pandas.DataFrame(ls1, columns=['ID', 'Class', 'count'])
df2 = pandas.DataFrame(ls2, columns=['ID', 'Class', 'count'])

现在我想从两个数据框中创建一个数据透视表,其中包含类" A"," B"," C&#34的列名;," D"。因此,所有四个列名称(如果可能,也按指定顺序)应存在于生成的数据透视表中。如果ID-Class组合没有计数,则应填写例如为NaN。

dfpivot1 = df1.pivot(index='ID', columns='Class', values='count')
dfpivot2 = df2.pivot(index='ID', columns='Class', values='count')

>>> dfpivot1
Class  A  B  C
ID            
1      2  1  3
2      4  4  5
>>> 

使用pandas中的.pivotdf1提供了一个数据透视表,但只有三个类列(" A"," B",& #34; C&#34)。因此,需要修改dfpivot1以使列具有" A"," B"," C"和" D"因此,与dfpivot2的列完全匹配。当我从元组列表开始时,其他方法(不使用pandas)可能会很有趣。

1 个答案:

答案 0 :(得分:2)

我认为您需要为所有缺失的列添加reindex_axisreindex以填充NaN

cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count').reindex_axis(cols, axis=1)
print (dfpivot1)
Class  A  B  C   D
ID                
1      2  1  3 NaN
2      4  4  5 NaN

也可以指定fill_value参数:

cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count')
              .reindex_axis(cols, fill_value=0, axis=1)
print (dfpivot1)
Class  A  B  C  D
ID               
1      2  1  3  0
2      4  4  5  0
cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count').reindex(columns=cols)
print (dfpivot1)
Class  A  B  C   D
ID                
1      2  1  3 NaN
2      4  4  5 NaN