我们在Hortonworks上使用Kafka和Spark Streaming在On-Premise集群设置中运行实时流应用程序。
我们需要从Spark Streaming或Kafka推送一些事件触发数据,以保存在AWS的S3文件系统上。
任何关于此的指示都将受到赞赏。
答案 0 :(得分:0)
你可以使用s3a://方案和Hadoop fileSystem API保存,例如有点像
val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration)
val out = fs.create("dest/mydata", true)
out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really")
out.close()
设置类路径可能有点棘手,但是所有内容都应该在HDP中设置。更确切地说,如果它不是,我会得到支持调用:)