我有一个如下所示的初始数据框:
Serial No. Data One Data Two
0 01 0.258625 0.667996
1 01 0.192356 0.723055
2 01 0.738066 0.266488
3 01 0.374525 0.059664
4 01 0.193977 0.104213
5 01 0.213749 0.366608
⁞
49 05 0.948550 0.823888
我想将其重新排列成一个包含数据类型和序列号列的多索引数据框:
Data Data One Data Two
Serial No. 01 02 03 04 05 01 02 03 04 05
为了生成并填充多索引数据框,我编写了一小段代码:
serial_numbers = ["01", "02", "03", "04", "05"]
headings = ["Serial No.", "Data One", "Data Two"]
arrays = [[], []]
for ii, heading in enumerate(headings[1:]):
arrays[0] += [heading]*len(serial_numbers)
arrays[1] += serial_numbers
index = pd.MultiIndex.from_tuples(list(zip(*arrays)), names=["Data", "Serial No."])
group = random_data.groupby(headings[0])
data = pd.DataFrame(np.zeros((len(group.get_group(serial_numbers[0])), len(index))), columns=index)
for heading in headings[1:]:
for serial_number in serial_numbers:
data.loc[:, (heading, serial_number)] = group.get_group(serial_number).loc[:, heading]
上面的代码创建了一个数据框,其中每个数据类型的第一个序列号用值填充,其余的是NaN:
Data Data One Data Two
Serial No. 01 02 03 04 05 01 02 03 04 05
0 0.258625 NaN NaN NaN NaN 0.667996 NaN NaN NaN NaN
1 0.192356 NaN NaN NaN NaN 0.723055 NaN NaN NaN NaN
2 0.738066 NaN NaN NaN NaN 0.266488 NaN NaN NaN NaN
3 0.374525 NaN NaN NaN NaN 0.059664 NaN NaN NaN NaN
4 0.193977 NaN NaN NaN NaN 0.104213 NaN NaN NaN NaN
5 0.213749 NaN NaN NaN NaN 0.366608 NaN NaN NaN NaN
6 0.829126 NaN NaN NaN NaN 0.972882 NaN NaN NaN NaN
7 0.494763 NaN NaN NaN NaN 0.482118 NaN NaN NaN NaN
8 0.024283 NaN NaN NaN NaN 0.538428 NaN NaN NaN NaN
9 0.700613 NaN NaN NaN NaN 0.067831 NaN NaN NaN NaN
为什么这适用于每种数据类型的第一个序列号而不适用于其他数据?
在现实世界中,输入数据来自CSV和pandas.read_csv,但出于这个问题的目的,我使用numpy生成随机数据和其他一些代码来构建它。
serial_no_col = []
for serial_number in serial_numbers:
for ii in range(10):
serial_no_col.append(serial_number)
random_data = pd.DataFrame(np.random.rand(50, 3), columns=headings)
random_data.loc[:, "Serial No."] = serial_no_col
答案 0 :(得分:1)
将cumcount
用于由set_index
创建的新索引,然后unstack
:
print (df)
Serial No. Data One Data Two
0 01 0.258625 0.667996
1 01 0.192356 0.723055
2 02 0.738066 0.266488
3 02 0.374525 0.059664
4 03 0.193977 0.104213
5 03 0.213749 0.366608
49 05 0.948550 0.823888
df = df.set_index([df.groupby('Serial No.').cumcount(), 'Serial No.']).unstack()
print (df)
Data One Data Two \
Serial No. 01 02 03 05 01 02
0 0.258625 0.738066 0.193977 0.94855 0.667996 0.266488
1 0.192356 0.374525 0.213749 NaN 0.723055 0.059664
Serial No. 03 05
0 0.104213 0.823888
1 0.366608 NaN