Impala如何从Avro读取数据

时间:2019-01-16 11:31:45

标签: hadoop hive avro impala cloudera-cdh

我需要构建一个Web前端,以查询存储在hdfs上avro文件中的数据。

我们想要的架构是带有用于查询数据的基于REST的api的前端spa。

查询可能会在avro文件中查找任何列,每个avro文件可能为100s GB,并且查询可能会基于日期范围等跨多个文件...

我一直在寻找诸如impala,kudu,hbase之类的各种选项。...我想知道什么是解决此问题的最佳方法。

一个想法是将avro数据导入到hbase中,但这会将数据复制到hbase中,并花费更多的磁盘空间。 kudu是支持此类查询的更好选择。

第二种选择是直接查询avro文件,但事实证明avro不支持随机访问。

通过impala查询的第三种选择,但是impala是否创建自己的数据库,例如hbase和kudu?

我们将始终在读取数据,从不写入或删除数据。

道歉的问题!

0 个答案:

没有答案