包含边值的分层索引多索引。重新排列吗?

时间:2014-08-04 15:09:10

标签: python pandas pivot transform networkx

我有pandas数据帧,其中包含使用networkx生成的边缘值(中心性,betweeness等)。 每行的(多)索引由节点源命名,没有目标。 我所拥有的图形不是定向的,因此索引中节点名称的顺序对我来说无关紧要。 但是,为了进行比较和其他操作,我希望将值设置为相同的顺序。

有什么问题?

i1, i2, val1, val2, val3
A,   B,   10,  NaN, 5
B,   A,  NaN,    3,  NaN

我认为有两种方法可以解决这个问题: A)通过反转每个值的索引和NaN值来镜像值以获取值。 B)重新排序整个数据帧,以便只出现A-> B并且B-> A永远不会出现。

A)

i1, i2, val1, val2, val3
A,   B,   10,   3,  5
B,   A,   10,   3,  5

B)

i1, i2, val1, val2, val3
A,   B,   10,  3,  5

1 个答案:

答案 0 :(得分:1)

我会使用解决方案B,因为如果你不关心边缘方向并且将行视为相同的东西,则没有理由重复数据。

首先使用以下

将索引合并为一个索引
uniques = df[['i1','i2']].apply(lambda x:frozenset(x),axis=1)

然后只需按新索引分组并将值合并在一起......

df.groupby(uniques).sum()

<强>输出

In [133]: df.groupby(uniques).sum()
Out[133]:
        val1  val2  val3
(A, B)    10     3     5