我有两个不同的元组列表,它们被转换为pandas数据帧:
ls1 = [(1,"A",2),(1,"B",1),(1,"C",3),(2,"A",4),(2,"B",4,),(2,"C",5)]
ls2 = [(1,"A",2),(1,"C",3),(1,"B",1),(1,"D",6),(2,"A",4),(2,"C",5),(2,"B",4,)]
df1 = pandas.DataFrame(ls1, columns=['ID', 'Class', 'count'])
df2 = pandas.DataFrame(ls2, columns=['ID', 'Class', 'count'])
现在我想从两个数据框中创建一个数据透视表,其中包含类" A"," B"," C&#34的列名;," D"。因此,所有四个列名称(如果可能,也按指定顺序)应存在于生成的数据透视表中。如果ID-Class组合没有计数,则应填写例如为NaN。
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count')
dfpivot2 = df2.pivot(index='ID', columns='Class', values='count')
>>> dfpivot1
Class A B C
ID
1 2 1 3
2 4 4 5
>>>
使用pandas中的.pivot
为df1
提供了一个数据透视表,但只有三个类列(" A"," B",& #34; C&#34)。因此,需要修改dfpivot1
以使列具有" A"," B"," C"和" D"因此,与dfpivot2
的列完全匹配。当我从元组列表开始时,其他方法(不使用pandas
)可能会很有趣。
答案 0 :(得分:2)
我认为您需要为所有缺失的列添加reindex_axis
或reindex
以填充NaN
:
cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count').reindex_axis(cols, axis=1)
print (dfpivot1)
Class A B C D
ID
1 2 1 3 NaN
2 4 4 5 NaN
也可以指定fill_value
参数:
cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count')
.reindex_axis(cols, fill_value=0, axis=1)
print (dfpivot1)
Class A B C D
ID
1 2 1 3 0
2 4 4 5 0
cols = ['A','B','C','D']
dfpivot1 = df1.pivot(index='ID', columns='Class', values='count').reindex(columns=cols)
print (dfpivot1)
Class A B C D
ID
1 2 1 3 NaN
2 4 4 5 NaN