我正在尝试在Hadoop中进行POC以进行日志聚合。我们有多个IIS服务器托管至少100个站点。我想将日志连续地传输到HDFS并解析数据并存储在Hive中以进行进一步的分析。
1)Apache KAFKA是正确选择还是Apache Flume
2)流式传输之后,最好使用Apache风暴并将数据提取到Hive
请提供任何建议以及此类问题陈述的任何信息。
由于
答案 0 :(得分:0)
您可以使用Kafka or flume
,也可以将两者结合起来将数据导入HDFS
但您需要为此编写代码有可用的Opensource数据流管理工具,您不需要编写代码。例如。 NiFi and Streamsets
您不需要使用任何单独的摄取工具,您可以直接使用这些数据流工具将数据放入hive表中。在hive中创建表后,您可以通过提供查询来进行分析。
让我知道你还需要其他任何东西。