Question

我在Databricks中有一个DataFrame流，并且我想对每个元素执行一个操作。在网上，我找到了特定目的的方法，例如将其写入控制台或转储到内存中，但是我想添加一些业务逻辑，并将一些结果放入Redis。

更具体地说，这是非流情况下的样子：

val someDataFrame = Seq(
  ("key1", "value1"),
  ("key2", "value2"),
  ("key3", "value3"),
  ("key4", "value4")
).toDF()

def someFunction(keyValuePair: (String, String)) = {
  println(keyValuePair)
}

someDataFrame.collect.foreach(r => someFunction((r(0).toString, r(1).toString)))

但是，如果someDataFrame不是简单的数据帧而是流数据帧（确实来自Kafka），则错误消息是这样的：

org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;

有人可以帮我解决这个问题吗？

一些重要说明：

我已经阅读了相关文档，例如Spark Streaming或Databricks Streaming以及其他一些说明。
我知道必须有类似start()和awaitTermination的东西，但是我不知道确切的语法。这些说明无济于事。
需要花一些页面列出我尝试过的所有可能性，所以我宁愿不提供它们。
我不是要解决显示结果的特定问题。即请不要针对这种情况提供解决方案。 someFunction看起来像这样：

val someData = readSomeExternalData()
if (condition containing keyValuePair and someData) {
  doSomething(keyValuePair);
}

（问题What is the purpose of ForeachWriter in Spark Structured Streaming?未提供有效的示例，因此无法回答我的问题。）

Answer 1

以下是使用foreachBatch进行阅读以使用流式API将每个项目保存到redis的示例。

与上一个问题（DataFrame to RDD[(String, String)] conversion）

// import spark and spark-redis
import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.streaming._
import org.apache.spark.sql.types._

import com.redislabs.provider.redis._

// schema of csv files
val userSchema = new StructType()
    .add("name", "string")
    .add("age", "string")

// create a data stream reader from a dir with csv files
val csvDF = spark
  .readStream
  .format("csv")
  .option("sep", ";")
  .schema(userSchema)
  .load("./data") // directory where the CSV files are 

// redis
val redisConfig = new RedisConfig(new RedisEndpoint("localhost", 6379))
implicit val readWriteConfig: ReadWriteConfig = ReadWriteConfig.Default

csvDF.map(r => (r.getString(0), r.getString(0))) // converts the dataset to a Dataset[(String, String)]
  .writeStream // create a data stream writer
  .foreachBatch((df, _) => sc.toRedisKV(df.rdd)(redisConfig)) // save each batch to redis after converting it to a RDD
  .start // start processing

在Databricks中为每个元素调用一个函数作为流

1 个答案: