仅通过熊猫中的两列进行整形

时间:2020-02-18 15:47:06

标签: python pivot-table reshape

这应该是一个简单的问题,但是我想我只是缺少要搜索的关键字。

假设我有一个两列长的数据集,如下所示:

test = pd.DataFrame(
       {
          'color': ['white', 'white', 'white', 
                    'red', 'red', 'red', 
                    'black', 'black', 'black'],
           'value': [1,2,3,4,5,6,7,8,9]
       })

如何将其转换为以下格式:

    white   red    black
    1        4       7
    2        5       8 
    3        6       9 

我意识到这应该是一个简单的枢轴函数,例如:

test.pivot('color', 'value'),但这会在对角线周围的NaN处生成值。有没有办法解决?

3 个答案:

答案 0 :(得分:0)

尝试:

test["id"]=test.groupby("color")["color"].cumcount()

test.pivot(index="id", columns="color", values="value")

输出:

color  black  red  white
id
0          7    4      1
1          8    5      2
2          9    6      3

答案 1 :(得分:0)

我使用熊猫库使用group by function完成了一些快速解决方案

 for i in test.groupby('color'):
     print(i[0])
     for j in range(len(i[1])):
         for k in i[1].values:
             print(k[1])
         break 

输出:

black
7
8 
9
red
4  
5
6
white
1
2
3

答案 2 :(得分:0)

您可以创建系列,重置索引并从这三个系列中重新创建数据框:

df = pd.DataFrame({'color': ['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'],
'value': [1,2,3,4,5,6,7,8,9]})

serie_white = df['value'][df['color'] == "white"].reset_index(drop=True)
serie_red = df['value'][df['color'] == "red"].reset_index(drop=True)
serie_black = df['value'][df['color'] == "black"].reset_index(drop=True)

result = pd.DataFrame({'white': serie_white, 'red': serie_red, 'black': serie_black})
print(result)

输出:

   white  red  black
0      1    4      7
1      2    5      8
2      3    6      9