我打算创建一个系统,我可以实时读取Web日志,并使用apache spark来处理它们。我打算用kafka将日志传递给spark来汇总统计数据。我不确定我是否应该进行一些数据解析(原始到json ...),如果是的话,在哪里做适当的地方(火花脚本,卡夫卡,其他地方...)如果有人能指导我,我将不胜感激。这对我来说是一种新的东西。干杯
答案 0 :(得分:0)
Apache Kafka是一个分布式的pub-sub消息系统。它没有提供任何解析或转换数据的方法。但任何Kafka消费者都可以处理,解析或转换发布到Kafka的数据,并将转换后的数据重新发布到另一个主题或将其存储在数据库或文件系统中。
有很多方法可以从Kafka中消费数据,一种是你建议的方式,即实时流处理器(apache flume,apache-spark,apache storm,......)。
所以答案是否定的,Kafka没有提供任何解析原始数据的方法。您可以使用spark转换/解析原始数据,但也可以编写自己的消费者,因为有许多Kafka clients ports或使用任何其他内置消费者Apache flume,Apache storm,等