Question

我只想使用内部联接来联接Spark中的三个表。我相信我可以通过两种方式做到这一点：

Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable

Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA  on [condition].saveAsTable

所以，我想知道哪种方法实现起来更快，而且如果我根据表的大小联接表，它也会有什么不同吗？就像首先联接较大的表而不是联接较小的表一样。

任何相关来源将不胜感激。谢谢。

Answer 1

如果任何一个表都足够小，https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html

使用Hive在Spark中使用2个内部联接联接3个表

1 个答案: