Apache Spark查找已连接的组件

时间:2018-11-30 14:23:58

标签: python apache-spark connected-components

我正在尝试使用Python实现一个Apache Spark程序来查找连接的组件,并且正在以下假设下工作:

  1. 我正在处理的无向图太大,无法在单个计算节点的内存中表示出来
  2. 图形由边列表形式source target表示,其中source是代表源顶点ID的整数,target是代表目标顶点ID的整数,源和目标之间用单个空格隔开
  3. 该图没有自环(即source = target),并且没有假设sourcetarget的特定顺序

最有效的方法是什么?

0 个答案:

没有答案