我需要构建一个Web前端,以查询存储在hdfs上avro文件中的数据。
我们想要的架构是带有用于查询数据的基于REST的api的前端spa。
查询可能会在avro文件中查找任何列,每个avro文件可能为100s GB,并且查询可能会基于日期范围等跨多个文件...
我一直在寻找诸如impala,kudu,hbase之类的各种选项。...我想知道什么是解决此问题的最佳方法。
一个想法是将avro数据导入到hbase中,但这会将数据复制到hbase中,并花费更多的磁盘空间。 kudu是支持此类查询的更好选择。
第二种选择是直接查询avro文件,但事实证明avro不支持随机访问。
通过impala查询的第三种选择,但是impala是否创建自己的数据库,例如hbase和kudu?
我们将始终在读取数据,从不写入或删除数据。
道歉的问题!