我使用步骤API在Amazon EMR上提交spark流式传输作业。当我在Amazon S3中获得输出时,一切正常。但是,我想知道文件流何时结束,所以我添加了一个print语句。我不知道在哪里可以看到print语句的输出。
OR
请建议是否有办法找出文件流已经完成。
谢谢
代码:
object CustomReceiver {
val sparkConf = new SparkConf().setAppName("App")
val ssc = new StreamingContext(sparkConf, Seconds(1))
ssc.checkpoint("s3://checkpointforstreaming/")
val lines = ssc.textFileStream("s3://incomingstreamingdata/")
val kvPairs = lines.flatMap(retAtrTuple)
kvPairs.print() // Probably this statment works but I dont know where to see the output.
kvPairs.repartition(1).saveAsTextFiles("s3://outputstreaming/sc") // this statement works
}
Function (retAtrTuple) splits lines to words