假设我们有一个具有重复行的数据框df
。我想存储唯一行的ID,以便每个行都有一个关联的整数列表(它们在数据框中显示的ID)。
让我展示一个例子:
import numpy as np
import pandas as pd
np.random.seed(0)
m = ['a','b']
M = ['X','Y']
n = np.arange(3)
size = 10
df = pd.DataFrame({'m': np.random.choice(m, size=size, replace=True),
'M': np.random.choice(M, size=size, replace=True),
'n': np.random.choice(n, size=size, replace=True)})
这将生成以下数据框:
m M n
0 a Y 2
1 b X 2
2 b X 0
3 a Y 1
4 b X 1
5 b X 1
6 b X 1
7 b X 0
8 b X 1
9 b Y 0
我相信我想做类似df.groupby(df.columns.tolist()).size()
的事情,但是我不想获得出现的次数,而是要获得出现的位置。因此,在这种情况下,所需的输出将是(例如,以字典形式):
output = {('a','Y',1):[3],
('a','Y',2):[0],
('b','X',0):[2,7],
('b','X',1):[4,5,6,8],
('b','X',2):[1],
('b','Y',0):[9]
}
我该怎么做?这样做的想法是尽可能地高效,因为数据框可以具有几列和成千上万(甚至几百万)行。
答案 0 :(得分:5)
您有groups
df.groupby(list(df)).groups
Out[176]:
{('a', 'Y', 1): Int64Index([3], dtype='int64'),
('a', 'Y', 2): Int64Index([0], dtype='int64'),
('b', 'X', 0): Int64Index([2, 7], dtype='int64'),
('b', 'X', 1): Int64Index([4, 5, 6, 8], dtype='int64'),
('b', 'X', 2): Int64Index([1], dtype='int64'),
('b', 'Y', 0): Int64Index([9], dtype='int64')}