在Amazon EMR上打印spark dstream

时间:2017-03-19 15:49:32

标签: amazon-web-services spark-streaming amazon-emr

我使用步骤API在Amazon EMR上提交spark流式传输作业。当我在Amazon S3中获得输出时,一切正常。但是,我想知道文件流何时结束,所以我添加了一个print语句。我不知道在哪里可以看到print语句的输出。

OR

请建议是否有办法找出文件流已经完成。

谢谢

代码:

object CustomReceiver {
  val sparkConf = new SparkConf().setAppName("App")
    val ssc = new StreamingContext(sparkConf, Seconds(1))
ssc.checkpoint("s3://checkpointforstreaming/")
val lines = ssc.textFileStream("s3://incomingstreamingdata/")
val kvPairs = lines.flatMap(retAtrTuple)
kvPairs.print() // Probably this statment works but I dont know where to see the output.

kvPairs.repartition(1).saveAsTextFiles("s3://outputstreaming/sc") // this statement works
}
Function (retAtrTuple) splits lines to words 

0 个答案:

没有答案