我正在寻找一种将整个日志文件从边缘节点流式传输到Hadoop的方法。总结用例:
我想出了以下评估:
我希望得到一些关于选择哪个选项的评论。 NiFi / MiNiFi选项看起来对我来说最有希望 - 也可以免费使用。
我是否忘记了任何能够解决此用例的广泛使用的工具?
答案 0 :(得分:1)
在选择开源大数据解决方案时,我遇到了类似的痛苦,只是通往罗马的道路很多。尽管“寻求技术建议不是Stackoverflow的主题”,但我仍然想分享自己的看法。
我假设您已经有一个hadoop集群来登陆日志文件。如果您使用的是企业就绪发行版,例如HDP分发,请选择其数据摄取解决方案。这种方法始终可以节省您在安装,设置中心管理和监视,在新版本发布时实施安全性和系统集成方面的大量工作。
您没有提及将日志文件放入HDFS后如何使用它们。我假设您只是想进行精确的复制,即在数据提取中不需要数据清理或将数据转换为规范化格式。现在,我想知道为什么您没有提到最简单的方法,而是使用调度的hdfs命令将日志文件从边缘节点放入hdfs?
现在,我可以共享一个我参与的生产设置。在此生产设置中,日志文件由商业中介系统推入或拉出,该系统进行数据清理,规范化,充实等。每天的数据量超过1000亿个日志记录。负载均衡器后面有6个边缘节点设置。日志首先降落在边缘节点之一上,然后将hdfs命令放入HDFS。起初使用Flume,但由于性能问题而被这种方法取代(很可能是工程师缺乏优化Flume的经验)。不过,值得一提的是,中介系统具有用于安排提取脚本的管理UI。在您的情况下,我将从PoC的cron作业开始,然后使用例如气流。
希望有帮助!并且很高兴知道您的最终选择和实现。