可能的生产者将跟踪数据导入kafka

时间:2014-12-11 18:37:26

标签: python tornado apache-kafka

我是kafka的新手,我用kafka阅读有关数据处理和进一步分析(例如spark)的内容,但没有关于将数据放入kafka的实际过程。我知道我必须把它当作生产者。但是,我怎么能从Web应用程序发送跟踪数据并将其转换为kafka。我应该使用nginx日志文件作为生产者或服务器,它能够直接写入kafka(例如龙卷风和python lib for kafka)......? 您将如何创建一个非常简单的分析工具,该工具从获取请求中获取数据并将其用于进一步处理到kafka?

任何评论或评论,也只是一些提示,都会帮助我理解这一点。

1 个答案:

答案 0 :(得分:0)

如果您可以选择使用能够直接写入Kafka的服务器(或者将生产者与您的应用程序代码集成)并且没有任何其他缺点,我肯定会这样做以避免整个日志文件解析步骤。在这种情况下,您可以将任何分析解决方案作为Kafka消费者连接到下游,并可以将数据流入其中。

如果您决定首先触摸Web应用服务器上的磁盘,那么有许多解析和转发到Kafka的解决方案; Flume / Flafka,Logstash,KafkaCat等。看看Kafka ecosystem page。其中一些选项使您可以在数据到达Kafka经纪商之前转换数据,这在某些情况下可能很有价值。