我有一个 df 形式的pandas数据框,
Batch_ID Product_ID
1 A
1 B
1 C
2 B
2 B
2 C
2 C
3 B
3 B
3 C
4 C
4 D
5 D
我想从这里得到一个边缘列表,基本上是一个新的数据框 edge_list_df (我不能转换为networkx对象)的形式,
Source Target Weight
A B 1.0
A C 1.0
A D 0.0
B C 3.0
B D 0.0
C D 1.0
请注意,我在示例中给出了许多不同的可能性,以确保我的问题清楚。例如,即使Batch_ID = 2,B-C组合出现两次,计数器也不会增加两倍。
实现这一目标的最有效方法是什么?
答案 0 :(得分:2)
这是我的看法:
from itertools import combinations
def combine(batch):
"""Combine all products within one batch into pairs"""
return pd.Series(list(combinations(set(batch), 2)))
edges = df.groupby('Batch_ID')['Product_ID'].apply(combine).value_counts()
edges
#(B, C) 3
#(A, B) 1
#(A, C) 1
#(D, C) 1
我知道实际上不需要0次出现边缘。
如果需要,您可以进一步将索引拆分为源和目标:
edges = edges.reset_index()
edges = pd.concat([edges, edges['index'].apply(pd.Series)], axis=1)
edges.drop(['index'], axis=1, inplace=True)
edges.columns = 'Weight','Source','Target'
# Weight Source Target
#0 3 B C
#1 1 A B
#2 1 A C
#3 1 D C
或者:
c = ['Source', 'Target']
L = edges.index.values.tolist()
edges = pd.DataFrame(L, columns=c).join(edges.reset_index(drop=True))
答案 1 :(得分:0)
使用NetworkX API:
In [225]: G = nx.from_pandas_edgelist(df, 'Batch_ID', 'Product_ID')
In [226]: from networkx.algorithms import bipartite
In [227]: W = bipartite.weighted_projected_graph(G, df['Product_ID'].unique())
In [228]: W.edges(data=True)
Out[228]: EdgeDataView([('A', 'C', {'weight': 1}), ('A', 'B', {'weight': 1}), ('B', 'C', {'weight': 3}), ('C', 'D', {'weight': 1})])
In [229]: nx.to_pandas_edgelist(W)
Out[229]:
source target weight
0 A C 1
1 A B 1
2 B C 3
3 C D 1
注意:对于NetworkX版本1.x,请使用from_pandas_dataframe()
和to_pandas_dataframe
代替from_pandas_edgelist
和to_pandas_edgelist