结构化流和嵌套数据到多个数据集

时间:2018-04-01 10:59:08

标签: apache-spark apache-kafka apache-spark-sql spark-structured-streaming

我正在使用Spark的结构化流媒体(2.2.1),使用Kafka每60秒从传感器接收数据。我在解决如何打包这个Kafka数据以便能够正确处理时遇到了麻烦。

我需要能够进行一些计算,因为数据来自Kafka。

我的问题是将来自Kafka的JSON数据解压缩到我可以使用的数据集中

数据

简化数据如下所示:

{
  id: 1,
  timestamp: "timestamp"
  pump: {
    current: 1.0,
    flow: 20.0
    torque: 5.0
  },
  reactors: [
    {
      id: 1,
      status: 200,
    },

    {
      id: 2,
      status: 300,
    }
  ],
  settings: {
    pumpTimer: 20.0,
    reactorStatusTimer: 200.0
  }
}

为了能够使用Spark,我已经为每个创建了一些案例类结构:

// First, general package
case class RawData(id: String, timestamp: String, pump: String, reactors: Array[String], settings: String)
// Each of the objects from the data
case class Pump(current: Float, flow: Float, torque: Float)
case class Reactor(id: Int, status: Int)
case class Settings(oos: Boolean, pumpTimer: Float, reactorStatusTimer: Float)

使用以下方法生成架构:

val rawDataSchema = Encoders.product[RawData].schema

Spark Schema的原始数据

首先我把''值''从卡夫卡进入我的总体架构:

val rawDataSet = df.select($"value" cast "string" as "json")
  .select(from_json($"json", rawDataSchema))
  .select("data.*").as[RawData]

使用这个rawDataSet,我可以将每个单独的对象打包成数据集。

val pump = rawDataSet.select(from_json($"pump", pumpSchema) as 'pumpData)
  .select("pumpData.*").as[Pump]

val settings = rawDataSet.select(from_json($"settings", settingsSchema) as 'settingsData)
  .select("settingsData.*").as[Settings]

这为每个JSON对象提供了漂亮而干净的数据集。

使用数据

以下是我的问题,如果我想比较或计算设置和泵的两个数据集之间的某些值,则JOIN无法使用结构化流式传输。

val joinedData = pump.join(settings)

错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Inner join between two streaming DataFrames/Datasets is not supported;

我的方法是否全部错了?或者是否有其他方法可以解决这个问题?

由于

1 个答案:

答案 0 :(得分:2)

我将用我现在正在使用的解决方案回答我自己的问题

我可以将这些对象作为一个案例类连接在一起,而不是为JSON中的每个对象创建案例类,如下所示:

case class RawData(
  id: String, 
  timestamp: String, 
  pump: Pump, 
  reactors: Array[Reactor], 
  settings: Settings
)

case class Pump(current: Float, flow: Float, torque: Float)
case class Reactor(id: Int, status: Int)
case class Settings(oos: Boolean, pumpTimer: Float, reactorStatusTimer: Float)

要将其变为可用的数据集,我只需调用

即可
val rawDataset = df.select($"value" cast "string" as "json")
  .select(from_json($"json", Encoders.product[RawData].schema) as 'data)
  .select("data.*").as[RawData]
  .withColumn("reactor", explode($"reactors")) // Handles the array of reactors, making one row in the dataset per reactor.

在处理完JSON并将其放入我的定义架构后,我可以像这样选择每个特定的传感器:

val tester = rawDataset.select($"pump.current", $”settings.pumpTimer”)

感谢user6910411指出我正确的方向