我从JSON格式的在线资源中提取数据,并通过Apache Flume将其存储到Hdfs中。现在它像Hadoop一样创建多个文件。现在我想从这些数据中搜索一些东西(来自所有这些文件),并获得与之相关的完整信息。解决方案是什么?
答案 0 :(得分:0)
您可以使用MapReduce或Spark开发自己的脚本以在hdfs中进行搜索。你有另一个解决方案,你可以使用配置单元和猪。 Pigg指南:http://archive.cloudera.com/cdh/3/pig/tutorial.html 蜂巢指南:https://cwiki.apache.org/confluence/display/Hive/LanguageManual