如何使用不同版本的架构处理Avro Container数据?

时间:2017-05-08 21:22:48

标签: hadoop hive apache-pig avro

我在Avro容器文件中存储在HDFS中的单个域中有数月的数据。当然,每个文件都有该文件中所有数据的模式。如何使用Hive或Pig处理所有数据?似乎Hive和Pig都需要预先设置某种形式的表结构定义的avsc文件。即使我使用Avro工具从每个文件中提取avsc,我将不得不使用不同的avsc文件加载每个数据集,我无法使用一个作业或DDL +查询处理所有这些。

Hive和Pig是否有可能在运行时根据正在处理的Avro Container文件提取avsc?它是否已经实施,我没有找到它或者实施起来太难了?

0 个答案:

没有答案