使用hive表读取多个镶木地板文件

时间:2018-04-06 11:04:36

标签: hive schema parquet

嗨我有2个不同列的拼花文件 1)名称,类别,标记 2)姓名,职业,分数,成绩

如何使用配置单元中的表读取两个文件中的所有数据。假设表格定义有4列名称,类别标记,毕业生?
我们如何在hive中设置parquet.mergeSchema属性?

1 个答案:

答案 0 :(得分:0)

Parquet支持架构演变。如果您使用Spark SQL读取此文件,则必须将spark.sql.parquet.mergeSchema设置为true(由于Spark 1.5.1因为模式合并是一项昂贵的操作,因此它已关闭)。另请参阅Spark SQL Guide,Schema Merging部分。