应用错误收集

来自Kafka Consumer的Spark Streaming

时间：2016-07-01 05:52:26

标签： apache-spark apache-kafka pyspark spark-streaming kafka-consumer-api

我可能需要和卡夫卡一起工作，我对它很陌生。我知道有些Kafka制作人会将日志（在Kafka中称为事件或消息或记录）发布到Kafka主题。

我需要通过消费者阅读Kafka主题。我是否需要首先设置消费者API然后我可以使用SparkStreaming Context（PySpark）进行流式传输，或者我可以直接使用KafkaUtils模块来读取kafka主题？

如果我需要设置Kafka消费者应用程序，我该怎么做？请您分享正确文档的链接。

先谢谢!!

2 个答案:

答案 0 :(得分：5)

Spark提供内部kafka流，其中你不需要创建自定义消费者，有2种方法与接收器2连接kafka 1.直接接近。有关详细信息，请浏览此链接http://spark.apache.org/docs/latest/streaming-kafka-integration.html

答案 1 :(得分：1)

没有必要设置kafka消费者应用程序，Spark本身通过两种方法创建了一个消费者。一种是使用KafkaUtils类的Reciever Based Approach，另一种是使用CreateDirectStream方法的Direct Approach。不知何故，在任何情况下失败离子Spark流，都没有数据丢失，它从您离开的数据偏移开始。

有关详细信息，请使用以下链接：http://spark.apache.org/docs/latest/streaming-kafka-integration.html