我很清楚Hive中可用的Serde支持数据格式的Avro架构。使用带有蜂巢的avro时非常舒服。
比方说,我发现这个问题反对presto。 https://github.com/prestodb/presto/issues/5009
我需要选择快速执行周期的组件。 Presto和impala提供更小的执行周期。 所以,任何人请让我澄清哪种情况在不同的数据格式中会更好。 首先,我现在正在寻找Presto的avro支持。
但是,我们可以考虑以下数据格式存储在HDFS上:
哪种方法最适合在不同数据格式下使用高性能。 ??请建议。
答案 0 :(得分:1)
Impala 可以读取Avro数据,但无法写入。请参阅描述Impala支持的文件格式的this documentaion page。
Hive supports读取和编写Avro文件。
Presto 的Hive Connector也支持Avro。感谢David Phillips指出this documentaion page。
互联网上有关于性能的不同基准,但我不想链接到特定的基准,因为结果严重依赖于基准测试的确切用例。