我们目前正在对HDFS集群进行各种转换。作为堆栈的新手,我被告知转换后的数据以容器格式以二进制格式存储。
现在,查询此数据的唯一方法是通过CLI使用密集命令。
我的问题是-是否可以构建RESTful接口来搜索这些容器中的数据?解密后的数据为JSON格式。
我这样做的原因是规模测试-如果我可以以可读,可解析的格式(而不是二进制)检索数据,则可以创建可以基于更新触发的自动测试挂钩。然后可以轻松地根据源验证更改。
答案 0 :(得分:1)
任何事情都是可能™
“以容器的形式”非常不清楚。 “容器”意味着很多东西-YARN容器,Docker容器等...
首先想到的是尝试Hive,PrestoDB或Livy(Spark)。通过REST API创建查询将更容易。
或者,您可以以不同的方式存储数据,而不是启动文件系统扫描。例如,HBase或Accumulo或Ignite。
但是,如果您想要真正快速的搜索,则实际上需要对所述数据进行索引。 Solr或Elasticsearch是两个流行的选项,它们都以本地方式显式公开REST API来搜索数据