使用两列作为参数执行groupby函数,而不管列的顺序如何

时间:2017-12-03 09:38:40

标签: python pandas pandas-groupby

鉴于以下数据框:

Node_1 Node_2 Time
A      B      6
A      B      4
B      A      2
B      C      5

如何使用groupby或其他方法获取数据帧,如下所示:

Node_1 Node_2 Mean_Time
A      B      4
B      C      5

通过找到所有路线A-> B和B-> A的平均值来获得第一行的Mean_Time,即(6 + 4 + 2)/3 = 4

2 个答案:

答案 0 :(得分:1)

您可以使用np.sortNode_1Node_2列的每一行进行排序:

nodes = df.filter(regex='Node')
arr = np.sort(nodes.values, axis=1)
df.loc[:, nodes.columns] = arr

导致df现在看起来像:

  Node_1 Node_2  Time
0      A      B     6
1      A      B     4
2      A      B     2
3      B      C     5

排序Node列后,您可以像往常一样groupby/agg

result = df.groupby(cols).agg('mean').reset_index()
import numpy as np
import pandas as pd

data = {'Node_1': {0: 'A', 1: 'A', 2: 'B', 3: 'B'},
 'Node_2': {0: 'B', 1: 'B', 2: 'A', 3: 'C'},
 'Time': {0: 6, 1: 4, 2: 2, 3: 5}}

df = pd.DataFrame(data)
nodes = df.filter(regex='Node')
arr = np.sort(nodes.values, axis=1)
cols = nodes.columns.tolist()
df.loc[:, nodes.columns] = arr

result = df.groupby(cols).agg('mean').reset_index()
print(result)

产量

  Node_1 Node_2  Time
0      A      B     4
1      B      C     5

答案 1 :(得分:0)

某些内容应该会给你带来理想的结果......这比以前更加丑陋:D

import pandas as pd

data = {'Node_1': {0: 'A', 1: 'A', 2: 'B', 3: 'B'},
 'Node_2': {0: 'B', 1: 'B', 2: 'A', 3: 'C'},
 'Time': {0: 6, 1: 4, 2: 2, 3: 5}}

df = pd.DataFrame(data)

# Create new column to group by
df["Node"] = df[["Node_1","Node_2"]].apply(lambda x: tuple(sorted(x)),axis=1)
# Create Mean_time column
df["Mean_time"] = df.groupby('Node').transform('mean')
# Drop duplicate rows and drop Node and Time columns
df = df.drop_duplicates("Node").drop(['Node','Time'],axis=1)

print(df)

返回:

      Node_1 Node_2  Mean_time
0      A      B          4
3      B      C          5

另一种方法是使用:

df = (df.groupby('Node', as_index=False)
            .agg({'Node_1':lambda x: list(x)[0],
                  'Node_2':lambda x: list(x)[0],
                  'Time': np.mean})
            .drop('Node',axis=1))