我有一个大致如下所示的数据框:
A1 B1 C1 A4 B4 C4 A7 B7 C7
A2 B2 C2 A5 B5 C5 A8 B8 C8
A3 B3 C3 A6 B6 C6 A9 B9 C9
我想看起来像这样:
A1 B1 C1
A2 B2 C2
A3 B3 C3
A4 B4 C4
A5 B5 C5
A6 B6 C6
A7 B7 C7
A8 B8 C8
A9 B9 C9
是否在熊猫或其他数据处理库中内置了任何可以轻松执行此操作的操作,而无需为每个“列集”手动遍历3行(在此示例中)3次?这实际上是一个三栏枢纽。
答案 0 :(得分:2)
reshape
+ swapaxes
+ reshape
df.values.reshape(-1, 3, 3).swapaxes(1, 0).reshape(-1, 3)
array([['A1', 'B1', 'C1'],
['A2', 'B2', 'C2'],
['A3', 'B3', 'C3'],
['A4', 'B4', 'C4'],
['A5', 'B5', 'C5'],
['A6', 'B6', 'C6'],
['A7', 'B7', 'C7'],
['A8', 'B8', 'C8'],
['A9', 'B9', 'C9']], dtype=object)
要扩展此范围并使其更通用,您可以根据分组计算偏移量,例如,假设在以下框架中每4列分组一次:
A1 B1 C1 D1 A4 B4 C4 D4 A7 B7 C7 D7
A2 B2 C2 D2 A5 B5 C5 D5 A8 B8 C8 D8
A3 B3 C3 D3 A6 B6 C6 D6 A9 B9 C9 D9
n = 4
f = df.shape[1] // n
df.values.reshape(-1, f, n).swapaxes(1, 0).reshape(-1, n)
array([['A1', 'B1', 'C1', 'D1'],
['A2', 'B2', 'C2', 'D2'],
['A3', 'B3', 'C3', 'D3'],
['A4', 'B4', 'C4', 'D4'],
['A5', 'B5', 'C5', 'D5'],
['A6', 'B6', 'C6', 'D6'],
['A7', 'B7', 'C7', 'D7'],
['A8', 'B8', 'C8', 'D8'],
['A9', 'B9', 'C9', 'D9']], dtype=object)
使用底层数组将是一种非常快的方法。
df = pd.concat([df]*500)
In [128]: %%timeit
...: n = 3
...: f = df.shape[1] // n
...: df.values.reshape(-1, f, n).swapaxes(1, 0).reshape(-1, n)
...:
77.4 µs ± 417 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
In [129]: %%timeit
...: c = np.arange(len(df.columns))
...: df.columns = [c // 3, c % 3]
...: df1 = df.stack(0).sort_index(level=1).reset_index(drop=True)
...:
...:
12.2 ms ± 326 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
答案 1 :(得分:1)
将DataFrame.stack
与通过模和整数除法创建的MultiIndex
一起使用:
c = np.arange(len(df.columns))
df.columns = [c // 3, c % 3]
df1 = df.stack(0).sort_index(level=1).reset_index(drop=True)
print (df1)
RangeIndex(start=0, stop=3, step=1)
0 1 2
0 A1 B1 C1
1 A2 B2 C2
2 A3 B3 C3
3 A4 B4 C4
4 A5 B5 C5
5 A6 B6 C6
6 A7 B7 C7
7 A8 B8 C8
8 A9 B9 C9
答案 2 :(得分:0)
我对熊猫没有真正的经验,所以我不知道确切的语法。但是您可以将原始数据帧分为3个块,然后沿第1轴重新组合为所需的数据帧。
因此它可以分为
A1 B1 C1
A2 B2 C2
A3 B3 C3
,
A4 B4 C4
A5 B5 C5
A6 B6 C6
,
A7 B7 C7
A8 B8 C8
A9 B9 C9
。
答案 3 :(得分:0)
您可以重建df:
import pandas as pd
from itertools import chain
letters = sorted(set(j for i in chain(*df.values) for j in i if j.isalpha()))
v = {letter: sorted(i for i in chain(*df.values) if i.startswith(letter)) for letter in letters}
dff = pd.DataFrame(v)
print(dff)
A B C
0 A1 B1 C1
1 A2 B2 C2
2 A3 B3 C3
3 A4 B4 C4
4 A5 B5 C5
5 A6 B6 C6
6 A7 B7 C7
7 A8 B8 C8
8 A9 B9 C9