应用错误收集

从hadoop hdfs数据搜索

时间：2017-10-06 06:36:40

标签： hadoop hdfs

我从JSON格式的在线资源中提取数据，并通过Apache Flume将其存储到Hdfs中。现在它像Hadoop一样创建多个文件。现在我想从这些数据中搜索一些东西（来自所有这些文件），并获得与之相关的完整信息。解决方案是什么？

1 个答案:

答案 0 :(得分：0)

您可以使用MapReduce或Spark开发自己的脚本以在hdfs中进行搜索。你有另一个解决方案，你可以使用配置单元和猪。 Pigg指南：http://archive.cloudera.com/cdh/3/pig/tutorial.html 蜂巢指南：https://cwiki.apache.org/confluence/display/Hive/LanguageManual