Question

我有pandas数据帧，其中包含使用networkx生成的边缘值（中心性，betweeness等）。每行的（多）索引由节点源命名，没有目标。我所拥有的图形不是定向的，因此索引中节点名称的顺序对我来说无关紧要。但是，为了进行比较和其他操作，我希望将值设置为相同的顺序。

有什么问题？

i1, i2, val1, val2, val3
A,   B,   10,  NaN, 5
B,   A,  NaN,    3,  NaN

我认为有两种方法可以解决这个问题： A）通过反转每个值的索引和NaN值来镜像值以获取值。 B）重新排序整个数据帧，以便只出现A-> B并且B-> A永远不会出现。

A）

i1, i2, val1, val2, val3
A,   B,   10,   3,  5
B,   A,   10,   3,  5

B）

i1, i2, val1, val2, val3
A,   B,   10,  3,  5

Answer 1

我会使用解决方案B，因为如果你不关心边缘方向并且将行视为相同的东西，则没有理由重复数据。

首先使用以下

将索引合并为一个索引

uniques = df[['i1','i2']].apply(lambda x:frozenset(x),axis=1)

然后只需按新索引分组并将值合并在一起......

df.groupby(uniques).sum()

<强>输出

In [133]: df.groupby(uniques).sum()
Out[133]:
        val1  val2  val3
(A, B)    10     3     5