应用错误收集

我需要构建一个Web前端，以查询存储在hdfs上avro文件中的数据。

我们想要的架构是带有用于查询数据的基于REST的api的前端spa。

查询可能会在avro文件中查找任何列，每个avro文件可能为100s GB，并且查询可能会基于日期范围等跨多个文件...

我一直在寻找诸如impala，kudu，hbase之类的各种选项。...我想知道什么是解决此问题的最佳方法。

一个想法是将avro数据导入到hbase中，但这会将数据复制到hbase中，并花费更多的磁盘空间。 kudu是支持此类查询的更好选择。

第二种选择是直接查询avro文件，但事实证明avro不支持随机访问。

通过impala查询的第三种选择，但是impala是否创建自己的数据库，例如hbase和kudu？

我们将始终在读取数据，从不写入或删除数据。

道歉的问题！