标签: apache-spark graph
我有一个Spark数据框,其中2列可以代表ID:first_id,second_id。 我想计算分组的行数:
first_id
second_id
a.first_id = b.first_id OR a.second_id = b.second_id
我找不到这样的例子,而且我理解问题是分组键不是确定性的(因为有第三行连接它们,所以2个不相关的行可能最终在同一组中)。我的问题是: