新手:Hadoop IIS日志 - 合理的方法?

时间:2018-03-29 09:43:02

标签: hadoop iis logging

我是主题hadoop的初学者 - 很抱歉,如果这是一个愚蠢的问题。 我的虚构场景是,我有几个具有多个日志位置的Web服务器(IIS)。我想集中这些日志文件,并根据我想要分析应用程序和Web服务器健康状况的数据。

由于hadoop的生态系统涉及各种工具,我不确定我的解决方案是否有效。

所以我认为我将日志文件移动到hdfs,在目录和内部表上创建一个外部表,并通过hive(插入到... select from)从外部表复制数据到内部表(带有一些过滤因为以​​#开头的注释行 当数据存储在内部表中时,我从hdfs中删除以前移动的文件。

技术有效,我已经尝试过 - 但这是合理的方法吗? 如果是的话 - 我将如何自动化这一步骤,因为现在我通过Ambari手动完成了所有这些工作。

为您的输入感谢

BW

1 个答案:

答案 0 :(得分:0)

是的,这是非常好的方法。

在提前设置Hive表之外,还有什么可以实现自动化?

您想按计划运行吗?使用Oozie,Luigi,Airflow或Azkaban。

从其他Windows服务器提取日志,因为您拥有高可用性的Web服务?例如,使用Puppet配置日志收集代理(不是与Hadoop相关的)

注意,如果它只是您关心的日志文件集合,我可能会使用Elasticsearch而不是Hadoop来存储数据,Filebeat用于持续监视日志文件,Logstash用于应用每个消息级别过滤,而Kibana用于可视化。如果将Elasticsearch用于快速索引/搜索和Hadoop用于存档,则可以在日志消息提取和消息编写者/消费者之间插入Kafka