我只想使用内部联接来联接Spark中的三个表。 我相信我可以通过两种方式做到这一点:
Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable
Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA on [condition].saveAsTable
所以,我想知道哪种方法实现起来更快,而且如果我根据表的大小联接表,它也会有什么不同吗?就像首先联接较大的表而不是联接较小的表一样。
任何相关来源将不胜感激。 谢谢。
答案 0 :(得分:0)