为什么将其转换为Spark中的交叉联接?

时间:2019-06-11 06:40:53

标签: apache-spark apache-spark-sql

我们有posts个数据框。我从questions衍生出answersposts数据帧,如下所示:

val questions = spark.sql("select * from posts where posts._PostType = 'Question'")
val answers = spark.sql("select * from posts where posts._PostType = 'Answer'")

我需要找到每个帖子的所有答案(_ParentId的{​​{1}}栏指向answers的{​​{1}}栏)。所以我写了以下

_Id

问题

  1. 为什么这会导致交叉联接?
  2. 如何将给定问题的所有答案分组?

输出

questions

0 个答案:

没有答案