Question

我正在使用Spark Streaming和Cassandra进行一些统计。当通过spark-cassandra-connector读取cassandra表，并通过ConstantInputDStream将cassandra行RDD转换为DStreamRDD时，where子句中的“ CurrentDate”变量在程序启动的同一天仍然停留。

目的是通过一些维度来分析总得分，直到当前日期为止，但是现在代码一直运行分析，直到开始运行为止。我在2019-05-25中运行代码，之后无法将插入表中的数据接收。

我使用的代码如下：

  class TestJob extends Serializable {

  def test(ssc : StreamingContext) : Unit={

    val readTableRdd = ssc.cassandraTable(Configurations.getInstance().keySpace1,Constants.testTable)
      .select(
        "code",
        "date",
        "time",
        "score"
      ).where("date<= ?",new Utils().getCurrentDate())

    val DStreamRdd = new ConstantInputDStream(ssc,readTableRdd)

    DStreamRdd.foreachRDD{r=>
    //DO SOMETHING
    }
  }
}

      object GetSSC extends Serializable {
      def getSSC() : StreamingContext ={
        val conf = new SparkConf()
          .setMaster(Configurations.getInstance().sparkHost)
          .setAppName(Configurations.getInstance().appName)
          .set("spark.cassandra.connection.host", Configurations.getInstance().casHost)
          .set("spark.cleaner.ttl", "3600")
          .set("spark.default.parallelism","3")
          .set("spark.ui.port","5050")
          .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
        val sc = new SparkContext(conf)
        sc.setLogLevel("WARN")
        @transient lazy val ssc = new StreamingContext(sc,Seconds(30))
        ssc
      }
    }

    object Main {
    val logger : Log = LogFactory.getLog(Main.getClass)
    def main(args : Array[String]) : Unit={
    val ssc = GetSSC.getSSC()
    try{
      new TestJob().test(ssc)
      ssc.start()
      ssc.awaitTermination()
    }catch {
      case e : Exception =>
        logger.error(Main.getClass.getSimpleName+"error : 
    "+e.printStackTrace())
    }
  }
}

此演示中使用的表如下：

    CREATE TABLE test.test_table (
       code text PRIMARY KEY, //UUID
       date text, // '20190520'
       time text, // '12:00:00'
       score int); // 90

感谢您的帮助！

Answer 1

通常，Spark Cassandra Connector返回的RDD不是流式RDD-Cassandra中没有这样的功能，可以订阅变更提要并对其进行分析。您可以通过显式循环和获取数据来实现类似的操作，但这需要对表进行仔细设计，但是如果不深入研究对延迟，数据量等的要求，很难说些什么。

通过Spark Streaming读取cassandra表时，如何在“哪里”子句中设置变量？

1 个答案: