我有pandas数据帧,其中包含使用networkx生成的边缘值(中心性,betweeness等)。 每行的(多)索引由节点源命名,没有目标。 我所拥有的图形不是定向的,因此索引中节点名称的顺序对我来说无关紧要。 但是,为了进行比较和其他操作,我希望将值设置为相同的顺序。
有什么问题?
i1, i2, val1, val2, val3
A, B, 10, NaN, 5
B, A, NaN, 3, NaN
我认为有两种方法可以解决这个问题: A)通过反转每个值的索引和NaN值来镜像值以获取值。 B)重新排序整个数据帧,以便只出现A-> B并且B-> A永远不会出现。
A)
i1, i2, val1, val2, val3
A, B, 10, 3, 5
B, A, 10, 3, 5
B)
i1, i2, val1, val2, val3
A, B, 10, 3, 5
答案 0 :(得分:1)
我会使用解决方案B,因为如果你不关心边缘方向并且将行视为相同的东西,则没有理由重复数据。
首先使用以下
将索引合并为一个索引uniques = df[['i1','i2']].apply(lambda x:frozenset(x),axis=1)
然后只需按新索引分组并将值合并在一起......
df.groupby(uniques).sum()
<强>输出强>
In [133]: df.groupby(uniques).sum()
Out[133]:
val1 val2 val3
(A, B) 10 3 5