我正在学习Spark,但是我不知道如何执行以下操作:
我想在REST API上调用端点列表,并使用Scala在Spark中处理响应。因此,我创建了一个包含URL列表的RDD。像这样:
val response_rdd = url_rdd.map(url => scala.io.Source.fromURL(url).mkString)
问题
如何让Spark每秒调用一次?我认为我需要Spark流,但是我可以使用哪个流?
val sc = SparkSession.builder().master("local[*]").appName("my app" ).getOrCreate()
val ssc = new StreamingContext(sc.sparkContext, Seconds(1))
val myStream = ssc. ....?
还是Spark流不是走的路?
谢谢!