Spark:使用不同的标头加载多个Csv

时间:2019-04-24 12:46:17

标签: scala apache-spark

我正在尝试使用sqlContext.read函数在Spark上加载多个Csv。

val df=sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("s3bucket/*.csv")

我的Csv文件具有不同的标题,我想知道此功能到底在做什么。它执行的是external_join DataFrame吗?

简单的例子,我有2个csv。

CSV file 1: VAR1 | VAR2 | VAR3 | VAR4
             a   |  b   |   c  |   d
CSV file 2: VAR1 | VAR2 | VAR5 
             e   |  f   |   g  

生成的DataFrame是这样的吗?

Data Frame: VAR1 | VAR2 | VAR3 | VAR4 | VAR5
             a   |  b   |   c  |   d  |  
             e   |  f   |      |      |   g

0 个答案:

没有答案