有人可以建议使用火花流媒体进行日志分析的最佳方法

时间:2016-05-29 18:11:42

标签: apache-kafka log-analysis

我是Big Data的新手,从最近几周开始,我尝试构建日志分析应用程序。

我阅读了很多文章,我发现Kafka + spark streaming是最可靠的配置。

现在,我能够处理从我的简单kafka java生成器发送的数据到spark Streaming。

有人可以提出一些建议 1)我如何实时读取服务器日志并将其传递给kafka经纪人。 2)任何可用于将数据从日志推送到Kafka的框架? 3)任何其他建议??

谢谢, Chowdary

1 个答案:

答案 0 :(得分:1)

有很多方法可以收集日志并发送给Kafka。如果您希望将日志文件作为事件流发送,我建议您查看Logstash / Filebeats - 只需将您输入为fileinput并输出到Kafka。

您还可以使用log4j KafkaAppender将数据推送到Kafka,或者使用许多已有的CLI工具将数据传输到Kafka。

如果您需要保证顺序,请注意分区配置和分区选择逻辑。例如,log4j appender将在所有分区上分发消息。由于Kafka仅保证每个分区的序列,因此您的Spark流式作业可能会开始不按顺序处理事件。