如何使用PySpark处理来自Kafka的数据?

时间:2020-07-04 08:47:17

标签: pyspark apache-kafka data-processing

我想处理从Kafka流到PySpark的日志数据并保存到Parquet文件,但是我不知道如何将数据输入到Spark。请帮我谢谢。

1 个答案:

答案 0 :(得分:0)

我的回答是高水平的。您需要使用火花流传输,并且需要对像Kafka这样的消息传递系统有一些基本的了解。

将数据发送到Kafka(或任何消息传递系统)的应用程序称为“生产者”,而从Kafka接收数据的应用程序称为“消费者”。生产者发送数据时,会将数据发送到特定的“主题”。多个生产者可以将数据发送到不同主题下的Kafka层。

基本上,您需要创建一个使用者应用程序。为此,首先需要确定将要使用数据的主题。

您可以在线找到许多示例程序。下一页可以帮助您构建第一个应用程序

https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/