应用错误收集

可能的生产者将跟踪数据导入kafka

时间：2014-12-11 18:37:26

标签： python tornado apache-kafka

我是kafka的新手，我用kafka阅读有关数据处理和进一步分析（例如spark）的内容，但没有关于将数据放入kafka的实际过程。我知道我必须把它当作生产者。但是，我怎么能从Web应用程序发送跟踪数据并将其转换为kafka。我应该使用nginx日志文件作为生产者或服务器，它能够直接写入kafka（例如龙卷风和python lib for kafka）......？您将如何创建一个非常简单的分析工具，该工具从获取请求中获取数据并将其用于进一步处理到kafka？

任何评论或评论，也只是一些提示，都会帮助我理解这一点。

1 个答案:

答案 0 :(得分：0)

如果您可以选择使用能够直接写入Kafka的服务器（或者将生产者与您的应用程序代码集成）并且没有任何其他缺点，我肯定会这样做以避免整个日志文件解析步骤。在这种情况下，您可以将任何分析解决方案作为Kafka消费者连接到下游，并可以将数据流入其中。

如果您决定首先触摸Web应用服务器上的磁盘，那么有许多解析和转发到Kafka的解决方案; Flume / Flafka，Logstash，KafkaCat等。看看Kafka ecosystem page。其中一些选项使您可以在数据到达Kafka经纪商之前转换数据，这在某些情况下可能很有价值。