我正在尝试使用sqlContext.read函数在Spark上加载多个Csv。
val df=sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("s3bucket/*.csv")
我的Csv文件具有不同的标题,我想知道此功能到底在做什么。它执行的是external_join DataFrame吗?
简单的例子,我有2个csv。
CSV file 1: VAR1 | VAR2 | VAR3 | VAR4
a | b | c | d
CSV file 2: VAR1 | VAR2 | VAR5
e | f | g
生成的DataFrame是这样的吗?
Data Frame: VAR1 | VAR2 | VAR3 | VAR4 | VAR5
a | b | c | d |
e | f | | | g