我有一个场景,其中我必须准备多个用于联接的数据框。
这些数据帧将通过在源中选择几列来形成。源文件基于实木复合地板,每个实木复合地板文件夹上都有一个外部表。
我的问题是,以下两种方法中哪种性能最好?
数据框frame1 = spark.read.fomat(parquet).load(parquet-location).select(此处为几列)
Dataframe frame2 = spark.sql(在此处从HIVEDB.Table_upon_parquet_files中选择几列)
哪个数据框构建速度更快??框架1或框架2。如果一个比另一个更好,为什么?请解释。