EMR和S3源上的火花流

时间:2017-04-27 07:07:06

标签: amazon-s3 pyspark emr

我正在尝试使用s3作为源使用EMR中的zeppelin笔记本打印流。

%pyspark
from pyspark.streaming import StreamingContext
from pyspark.sql import Row, SparkSession
ssc = StreamingContext(sc, 45)
streams=ssc.textFileStream('s3://realtime-nyc-bike/')
streams.pprint()

然而,没有任何东西被打印出来。 Bucket名称是正确的。可能是什么问题?

1 个答案:

答案 0 :(得分:0)

来自Spark流媒体文档:

Spark Streaming仅设置它在启动时将执行的计算,并且尚未启动实际处理。要在设置完所有转换后开始处理,最后调用

ssc.start()             // Start the computation
ssc.awaitTermination()  // Wait for the computation to terminate