按表达式分组

时间:2018-08-02 10:36:17

标签: apache-spark graph

我有一个Spark数据框,其中2列可以代表ID:first_idsecond_id
我想计算分组的行数:

a.first_id = b.first_id OR a.second_id = b.second_id

我找不到这样的例子,而且我理解问题是分组键不是确定性的(因为有第三行连接它们,所以2个不相关的行可能最终在同一组中)。我的问题是:

  1. 数学上解决该问题的算法是什么? (图形查询?还有什么?)
  2. 是否有火花实现方案?

0 个答案:

没有答案