有没有人知道从边缘列表中删除未连接的单个边缘的有效算法

时间:2018-03-29 15:33:41

标签: sql pyspark graph-theory connected-components

我有一个有向图,其中我有大量未连接的边,必不可少,源和目标在数据集中出现一次。在更多图论理论中,从数据集中删除其中一个边缘会使连接组件的数量减少1.我正在尝试找到一种算法,该算法可能比我目前在预处理(分布式环境)中所做的更有效,伪代码是:

Group By Count Sources
Group By Count Destinations
Join SourceCount and DestCount to edgelist
Filter on edges where (SourceCount + DestCount) > 1

有人知道更有效的方法吗?

0 个答案:

没有答案