我有以下Spark流媒体示例:
val conf = new SparkConf().setAppName("Name").setMaster("local")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(2))
val directoryStream = ssc.textFileStream("""file:///C:/Users/something/something""")
directoryStream.foreachRDD(file => {
println(file.count())
})
ssc.start()
ssc.awaitTermination()
即使文件夹为空,它也会每2秒保持打印0,就像文件夹中有空文件一样。我希望它只在文件夹中存在新文件时进入foreachRDD
。我有什么不对的吗?
我正在使用Spark 1.6和Scala 2.10.7。
答案 0 :(得分:4)
由于您的批处理持续时间为2秒,作业将每2秒触发一次,基本上触发点不是数据可用性,它是批处理持续时间,如果DStream包含数据时存在的数据,否则它将是空的(使用下面的代码来检查相同的)
dstream.foreachRDD{ rdd => if (!rdd.isEmpty) {// do something } }