IIS日志实时调整Hadoop

时间:2016-11-10 07:16:14

标签: hadoop hive apache-kafka flume

我正在尝试在Hadoop中进行POC以进行日志聚合。我们有多个IIS服务器托管至少100个站点。我想将日志连续地传输到HDFS并解析数据并存储在Hive中以进行进一步的分析。

1)Apache KAFKA是正确选择还是Apache Flume

2)流式传输之后,最好使用Apache风暴并将数据提取到Hive

请提供任何建议以及此类问题陈述的任何信息。

由于

1 个答案:

答案 0 :(得分:0)

您可以使用Kafka or flume,也可以将两者结合起来将数据导入HDFS但您需要为此编写代码有可用的Opensource数据流管理工具,您不需要编写代码。例如。 NiFi and Streamsets

您不需要使用任何单独的摄取工具,您可以直接使用这些数据流工具将数据放入hive表中。在hive中创建表后,您可以通过提供查询来进行分析。

让我知道你还需要其他任何东西。