应用错误收集

在Scala中读取具有不同架构的多个Parquet文件

时间：2018-08-13 19:53:35

标签： scala apache-spark-sql parquet

我在不同目录中有多个实木复合地板文件，并希望通过Scala中的参数化顺序读取它们。

问题在于架构信息不是标准的，并且列名变化很大。

例如：在一个目录中的load_date可以在另一个目录中的镶木文件中称为load_dt。

因此，我被迫为每个目录使用不同的read.parquet（）。select语句。（超过30个）

有没有一种方法可以使用相同的语句并根据某种参数切换模式信息？也许像客户名称或ID？

0 个答案:

没有答案