应用错误收集

我是主题hadoop的初学者 - 很抱歉，如果这是一个愚蠢的问题。我的虚构场景是，我有几个具有多个日志位置的Web服务器（IIS）。我想集中这些日志文件，并根据我想要分析应用程序和Web服务器健康状况的数据。

由于hadoop的生态系统涉及各种工具，我不确定我的解决方案是否有效。

所以我认为我将日志文件移动到hdfs，在目录和内部表上创建一个外部表，并通过hive（插入到... select from）从外部表复制数据到内部表（带有一些过滤因为以＃开头的注释行当数据存储在内部表中时，我从hdfs中删除以前移动的文件。

技术有效，我已经尝试过 - 但这是合理的方法吗？如果是的话 - 我将如何自动化这一步骤，因为现在我通过Ambari手动完成了所有这些工作。

为您的输入感谢

是的，这是非常好的方法。

在提前设置Hive表之外，还有什么可以实现自动化？

您想按计划运行吗？使用Oozie，Luigi，Airflow或Azkaban。

从其他Windows服务器提取日志，因为您拥有高可用性的Web服务？例如，使用Puppet配置日志收集代理（不是与Hadoop相关的）

注意，如果它只是您关心的日志文件集合，我可能会使用Elasticsearch而不是Hadoop来存储数据，Filebeat用于持续监视日志文件，Logstash用于应用每个消息级别过滤，而Kibana用于可视化。如果将Elasticsearch用于快速索引/搜索和Hadoop用于存档，则可以在日志消息提取和消息编写者/消费者之间插入Kafka

新手：Hadoop IIS日志 - 合理的方法？

1 个答案: