pyspark - 如何使用PySpark处理来自Kafka的数据？

时间：2020-07-04 08:47:17

标签： pyspark apache-kafka data-processing

我想处理从Kafka流到PySpark的日志数据并保存到Parquet文件，但是我不知道如何将数据输入到Spark。请帮我谢谢。

答案 0 :(得分：0)

我的回答是高水平的。您需要使用火花流传输，并且需要对像Kafka这样的消息传递系统有一些基本的了解。

将数据发送到Kafka（或任何消息传递系统）的应用程序称为“生产者”，而从Kafka接收数据的应用程序称为“消费者”。生产者发送数据时，会将数据发送到特定的“主题”。多个生产者可以将数据发送到不同主题下的Kafka层。

基本上，您需要创建一个使用者应用程序。为此，首先需要确定将要使用数据的主题。

您可以在线找到许多示例程序。下一页可以帮助您构建第一个应用程序