Question

我有以下pandas数据帧：

import pandas as pd
df = pd.read_csv("filename.csv")

df 
     A   B         C         D        E    
0    a  0.469112 -0.282863 -1.509059  cat  
1    c -1.135632  1.212112 -0.173215  dog   
2    e  0.119209 -1.044236 -0.861849  dog   
3    f -2.104569 -0.494929  1.071804  bird   
4    g -2.224569 -0.724929  2.234213  elephant
...

我想根据column E中的分类值的标识创建更多列，以便数据框看起来像这样：

 df 
         A   B         C         D        cat    dog     bird    elephant ....    
    0    a  0.469112 -0.282863 -1.509059  -1      0       0       0
    1    c -1.135632  1.212112 -0.173215   0     -1       0       0
    2    e  0.119209 -1.044236 -0.861849   0     -1       0       0
    3    f -2.104569 -0.494929  1.071804   0      0      -1       0
    4    g -2.224569 -0.724929  2.234213   0      0       0       0
    ...

也就是说，我将列E的值转换为基于E值的二进制矩阵，如果值存在，则为1，0对于其他没有的地方（这里，我希望它是-1或“负二进制矩阵”）？

我不确定熊猫中哪个功能最能做到这一点：也许pandas.DataFrame.unstack()？

任何洞察力都赞赏！

Answer 1

使用pd.concat，drop和get_dummies

pd.concat([df.drop('E', 1), pd.get_dummies(df.E).mul(-1)], axis=1)

如何转动pandas DataFrame列来创建二进制“值表”？

1 个答案: