Python Stream Kafka-无法看到任何流数据

时间:2018-11-16 11:23:05

标签: python apache-spark pyspark apache-kafka spark-streaming

即使经过多次尝试,我也无法在控制台上看到任何消息,也没有写入文件。

在我的代码下面:

df = spark.readStream.format("kafka")\
    .option("kafka.bootstrap.servers","ipaddress:9092")\
    .option("subscribe","mysql-server-1.inventory.customers")\
    .option("partition.assignment.strategy", "range") \
    .option("startingOffsets", "latest")\
    .load()#.

df = df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

print(df.printSchema())
print("Streaming : {}".format(df.isStreaming))

ds = df.writeStream\
    .format("kafka")\
    .option("kafka.bootstrap.servers", "ipaddress:9092")\
    .option("topic", "mysql-server-1.inventory.customers")\
    .option("checkpointLocation", "hdfs://ipaddress:9000/user/xxxx/check")\
    .start()

ds.awaitTermination()

注意:

  1. writeStream上的主题已经尝试使用其他名称
  2. writeStream的
  3. 格式已经尝试使用带有附加,更新和完成功能的控制台。还已经尝试使用镶木地板来写入文件
  4. 在打印ds.lastProgress()时获得NoneType

0 个答案:

没有答案