这应该是一个简单的问题,但是我想我只是缺少要搜索的关键字。
假设我有一个两列长的数据集,如下所示:
test = pd.DataFrame(
{
'color': ['white', 'white', 'white',
'red', 'red', 'red',
'black', 'black', 'black'],
'value': [1,2,3,4,5,6,7,8,9]
})
如何将其转换为以下格式:
white red black
1 4 7
2 5 8
3 6 9
我意识到这应该是一个简单的枢轴函数,例如:
test.pivot('color', 'value')
,但这会在对角线周围的NaN处生成值。有没有办法解决?
答案 0 :(得分:0)
尝试:
test["id"]=test.groupby("color")["color"].cumcount()
test.pivot(index="id", columns="color", values="value")
输出:
color black red white
id
0 7 4 1
1 8 5 2
2 9 6 3
答案 1 :(得分:0)
我使用熊猫库使用group by function完成了一些快速解决方案
for i in test.groupby('color'):
print(i[0])
for j in range(len(i[1])):
for k in i[1].values:
print(k[1])
break
输出:
black
7
8
9
red
4
5
6
white
1
2
3
答案 2 :(得分:0)
您可以创建系列,重置索引并从这三个系列中重新创建数据框:
df = pd.DataFrame({'color': ['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'],
'value': [1,2,3,4,5,6,7,8,9]})
serie_white = df['value'][df['color'] == "white"].reset_index(drop=True)
serie_red = df['value'][df['color'] == "red"].reset_index(drop=True)
serie_black = df['value'][df['color'] == "black"].reset_index(drop=True)
result = pd.DataFrame({'white': serie_white, 'red': serie_red, 'black': serie_black})
print(result)
输出:
white red black
0 1 4 7
1 2 5 8
2 3 6 9