我有一个要求,我必须读取HDFS中不同目录中的实木复合地板文件。客户端按目录细分目录,每个客户端具有不同的架构(命名约定)。
我正在使用scala将这些文件读入数据帧。有没有一种方法可以使用客户端名称作为输入参数来动态更改输入字段名称。我有将近30位客户可供阅读。
预先感谢
答案 0 :(得分:0)
您可以首先使用StructType
以编程方式构造模式
类https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-specifying-the-schema,然后做类似的事情
spark.read.schema(myGeneratedSchema).parquet(path)