Question

我有一个拥有一百万行（ID）的Pandas Dataframe，其中一列作为列表列表。 e.g。

df = pd.DataFrame（{＆＃39; id＆＃39;：[1,2,3,4]，＆＃39; token_list＆＃39;：[[＆＃39; a＆＃39;，＆＃39; b＆＃39;＆＃39; C＆＃39]，[＆＃39; C＆＃39;＆＃39; d＆＃39;]，[＆＃39; A＆＃39;＆＃ 39，E＆＃39;＆＃39; F＆＃39]，[＆＃39; C＆＃39;＆＃39; F＆＃39;]]}）

我想创建一个包含所有唯一令牌的字典 - ＆＃39; a＆＃39;＆＃39; b＆＃39;＆＃39; c＆＃39;＆＃39; e＆＃39; ，＆＃39; f＆＃39; （我已经将其作为单独的列表）作为键和每个键与之关联的所有ID。例如，{＆＃39; a＆＃39; ：[1,3]，＆＃39; b＆＃39;：[1]，＆＃39; c＆＃39;：[1,2,4] ..}依此类推。

我的问题是有12000个这样的令牌，我不想使用循环来遍历第一帧中的每一行。并且似乎没有用。

Answer 1

首先使用np.repeat numpy.concatenate进行展平，然后groupby使用list进行展开to_dict：

a = np.repeat(df['id'], df['token_list'].str.len())
b = np.concatenate(df['token_list'].values)

d = a.groupby(b).apply(list).to_dict()
print (d)

{'c': [1, 2, 4], 'a': [1, 3], 'b': [1], 'd': [2], 'e': [3], 'f': [3, 4]}

详情：

print (a)
0    1
0    1
0    1
1    2
1    2
2    3
2    3
2    3
3    4
3    4
Name: id, dtype: int64

print (b)
['a' 'b' 'c' 'c' 'd' 'a' 'e' 'f' 'c' 'f']

Answer 2

Message size to large

根据作为列表列表的列中存在的值切片Pandas Dataframe

2 个答案: