我有一个配置单元表,该配置表指向包含多个orc文件的s3路径(s3:/// table / data /)。 我的工作是将文件写到上述前缀,但是不能保证属性的顺序(在文件中),并且不是所有属性都被填充,即某些文件只能包含数据子集。
那么,配置单元表可以使用适当的列名映射列数据并为查询的每个列返回适当的值吗?
答案 0 :(得分:1)
否(如果是 ORC表)只是根据表中列的顺序读取数据。
如果不能保证属性顺序,则蜂巢兽人表根据表模式读取数据(如果数据类型匹配),则显示值 >(或)将值转换为该类型(或)空。
可能您需要 Create an AVRO table ,然后基于avro模式表将指向正确的值。