是否可以构建用于查询HDFS数据的REST接口?

时间:2018-11-29 18:57:38

标签: rest hadoop hdfs

我们目前正在对HDFS集群进行各种转换。作为堆栈的新手,我被告知转换后的数据以容器格式以二进制格式存储。

现在,查询此数据的唯一方法是通过CLI使用密集命令。

我的问题是-是否可以构建RESTful接口来搜索这些容器中的数据?解密后的数据为JSON格式。

我这样做的原因是规模测试-如果我可以以可读,可解析的格式(而不是二进制)检索数据,则可以创建可以基于更新触发的自动测试挂钩。然后可以轻松地根据源验证更改。

1 个答案:

答案 0 :(得分:1)

任何事情都是可能

“以容器的形式”非常不清楚。 “容器”意味着很多东西-YARN容器,Docker容器等...

首先想到的是尝试Hive,PrestoDB或Livy(Spark)。通过REST API创建查询将更容易。

或者,您可以以不同的方式存储数据,而不是启动文件系统扫描。例如,HBase或Accumulo或Ignite。

但是,如果您想要真正快速的搜索,则实际上需要对所述数据进行索引。 Solr或Elasticsearch是两个流行的选项,它们都以本地方式显式公开REST API来搜索数据