Spark创建数据框-从配置单元表或实木复合地板文件

时间:2019-06-13 18:23:41

标签: performance apache-spark dataframe optimization

我有一个场景,其中我必须准备多个用于联接的数据框。

这些数据帧将通过在源中选择几列来形成。源文件基于实木复合地板,每个实木复合地板文件夹上都有一个外部表。

我的问题是,以下两种方法中哪种性能最好?

数据框frame1 = spark.read.fomat(parquet).load(parquet-location).select(此处为几列)

Dataframe frame2 = spark.sql(在此处从HIVEDB.Table_upon_parquet_files中选择几列)

哪个数据框构建速度更快??框架1或框架2。如果一个比另一个更好,为什么?请解释。

0 个答案:

没有答案