在Scala中读取具有不同架构的多个Parquet文件

时间:2018-08-13 19:53:35

标签: scala apache-spark-sql parquet

我在不同目录中有多个实木复合地板文件,并希望通过Scala中的参数化顺序读取它们。

问题在于架构信息不是标准的,并且列名变化很大。

例如:在一个目录中的load_date可以在另一个目录中的镶木文件中称为load_dt

因此,我被迫为每个目录使用不同的read.parquet()。select语句。 (超过30个)

有没有一种方法可以使用相同的语句并根据某种参数切换模式信息?也许像客户名称或ID?

0 个答案:

没有答案