我有一个csv文件,其中一个唯一列(id),另外7个列(C1)包含与一个唯一列相关的类。现在我想仅从7列中提取重复数据 但实际上我需要编写类似于输出的代码。
示例:
**id C1 C2 C3 C4 C5 C6 C7**
P1 a1 a2 a4
P2 a2 a4 a6 a7
P3 a5 a7
P4 a1 a3
输出
a1=> P1, P4
a2=>P1, P2
a3=>P4
a4=>P1, P2
a5=>P3
and so on
答案 0 :(得分:1)
将stack
与groupby
df.set_index('id').stack().reset_index().groupby(0).id.apply(list)
Out[137]:
0
a1 [P1, P4]
a2 [P1, P2]
a3 [P4]
a4 [P1, P2]
a5 [P3]
a6 [P2]
a7 [P2, P3]
Name: id, dtype: object