使用Hive在Spark中使用2个内部联接联接3个表

时间:2018-09-03 12:41:34

标签: sql apache-spark hive pyspark bigdata

我只想使用内部联接来联接Spark中的三个表。 我相信我可以通过两种方式做到这一点:

Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable

Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA  on [condition].saveAsTable

所以,我想知道哪种方法实现起来更快,而且如果我根据表的大小联接表,它也会有什么不同吗?就像首先联接较大的表而不是联接较小的表一样。

任何相关来源将不胜感激。 谢谢。

1 个答案:

答案 0 :(得分:0)