Question

我试图对主题数据进行一些丰富。因此，从Kafka读取使用Spark结构化流媒体回到Kafka。

val ds = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option("group.id", groupId)
      .option("subscribe", "topicname")
      .load()


val enriched = ds.select("key", "value", "topic").as[(String, String, String)].map(record => enrich(record._1,
      record._2, record._3)

val query = enriched.writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option("group.id", groupId)
      .option("topic", "desttopic")
      .start()

但是我得到了一个例外：

Exception in thread "main" java.lang.UnsupportedOperationException: Data source kafka does not support streamed writing
    at org.apache.spark.sql.execution.datasources.DataSource.createSink(DataSource.scala:287)
    at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:266)
    at kafka_bridge.KafkaBridge$.main(KafkaBridge.scala:319)
    at kafka_bridge.KafkaBridge.main(KafkaBridge.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

有任何解决方法吗？

Answer 1

Spark 2.1（目前是Spark的最新版本）没有它。下一个版本 - 2.2 - 将有Kafka Writer，see this commit。

Kafka Sink和Kafka Writer一样。

Answer 2

如T. Gawęda所述，没有kafka格式可以将流数据集写入Kafka（即Kafka接收器）。

Spark 2.1中目前推荐的解决方案是使用foreach operator。

foreach操作允许对输出数据计算任意操作。从Spark 2.1开始，这仅适用于Scala和Java。要使用它，您必须实现ForeachWriter接口（Scala / Java文档），该接口具有在触发器后生成一系列行作为输出时调用的方法。请注意以下要点。

Answer 3

尝试一下

ds.map(_.toString.getBytes).toDF("value")
      .writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "localhost:9092"))
      .option("topic", topic)
      .start
      .awaitTermination()

如何将流数据集写入Kafka？

3 个答案: