使用Spark 2.0.2,Kafka源代码和scalapb进行结构化流式传输

时间:2016-11-16 20:04:15

标签: scala apache-kafka spark-streaming scalapb

我正在使用结构化流媒体(Spark 2.0.2)来使用kafka消息。使用scalapb,protobuf中的消息。我收到以下错误。请帮忙..

  

线程中的异常" main" scala.ScalaReflectionException:是   不是一个词   scala.reflect.api.Symbols $ SymbolApi $ class.asTerm(Symbols.scala:199)     在   scala.reflect.internal.Symbols $ SymbolContextApiImpl.asTerm(Symbols.scala:84)     在   org.apache.spark.sql.catalyst.ScalaReflection $ class.constructParams(ScalaReflection.scala:811)     在   org.apache.spark.sql.catalyst.ScalaReflection $ .constructParams(ScalaReflection.scala:39)     在   org.apache.spark.sql.catalyst.ScalaReflection $ class.getConstructorParameters(ScalaReflection.scala:800)     在   org.apache.spark.sql.catalyst.ScalaReflection $ .getConstructorParameters(ScalaReflection.scala:39)     在   org.apache.spark.sql.catalyst.ScalaReflection $ $ .ORG阿帕奇$ $火花SQL $ $催化剂$$ ScalaReflection serializerFor(ScalaReflection.scala:582)     在   org.apache.spark.sql.catalyst.ScalaReflection $ .ORG $阿帕奇$火花$ SQL $ $催化剂$$ ScalaReflection serializerFor(ScalaReflection.scala:460)     在   org.apache.spark.sql.catalyst.ScalaReflection $$ anonfun $ 9.apply(ScalaReflection.scala:592)     在   org.apache.spark.sql.catalyst.ScalaReflection $$ anonfun $ 9.apply(ScalaReflection.scala:583)     在   scala.collection.TraversableLike $$ anonfun $ flatMap $ 1.适用(TraversableLike.scala:252)     在   scala.collection.TraversableLike $$ anonfun $ flatMap $ 1.适用(TraversableLike.scala:252)     在scala.collection.immutable.List.foreach(List.scala:381)at   scala.collection.TraversableLike $ class.flatMap(TraversableLike.scala:252)     在scala.collection.immutable.List.flatMap(List.scala:344)at   org.apache.spark.sql.catalyst.ScalaReflection $ .ORG $阿帕奇$火花$ SQL $ $催化剂$$ ScalaReflection serializerFor(ScalaReflection.scala:583)     在   org.apache.spark.sql.catalyst.ScalaReflection $ .serializerFor(ScalaReflection.scala:425)     在   org.apache.spark.sql.catalyst.encoders.ExpressionEncoder $。适用(ExpressionEncoder.scala:61)     在org.apache.spark.sql.Encoders $ .product(Encoders.scala:274)at at   org.apache.spark.sql.SQLImplicits.newProductEncoder(SQLImplicits.scala:47)     在PersonConsumer $ .main(PersonConsumer.scala:33)at   PersonConsumer.main(PersonConsumer.scala)at   sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)at   sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)     在   sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)     在java.lang.reflect.Method.invoke(Method.java:498)at   com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

以下是我的代码......

object PersonConsumer {
  import org.apache.spark.rdd.RDD
  import com.trueaccord.scalapb.spark._
  import org.apache.spark.sql.{SQLContext, SparkSession}
  import com.example.protos.demo._

  def main(args : Array[String]) {

    def parseLine(s: String): Person =
      Person.parseFrom(
        org.apache.commons.codec.binary.Base64.decodeBase64(s))

    val spark = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .getOrCreate()

    import spark.implicits._

    val ds1 = spark.readStream.format("kafka").option("kafka.bootstrap.servers","localhost:9092").option("subscribe","person").load()

    val ds2 = ds1.selectExpr("CAST(value AS STRING)").as[String]

    val ds3 = ds2.map(str => parseLine(str)).createOrReplaceTempView("persons")

    val ds4 = spark.sqlContext.sql("select name from persons")

    val query = ds4.writeStream
      .outputMode("append")
      .format("console")
      .start()
    query.awaitTermination()
  }
}

2 个答案:

答案 0 :(得分:0)

val ds3的行应为:

val ds3 = ds2.map(str => parseLine(str))

sqlContext.protoToDataFrame(ds3).registerTempTable("persons")

在将RDD保存为临时表之前,需要将RDD转换为数据帧。

答案 1 :(得分:0)

在Person类中,性别是枚举,这是导致此问题的原因。删除此字段后,它可以正常工作。 以下是我从DataBricks的Shixiong(Ryan)得到的答案。

问题是"可选性别性别= 3;"。生成的类"性别"是一个特质,Spark不知道如何创建一个特征,因此它不受支持。您可以定义SQL Encoder支持的类,并将此生成的类转换为parseLine中的新类。