如何将流数据从On-Premise Hadoop集群保存到AWS S3

时间:2017-02-13 13:19:24

标签: amazon-web-services amazon-s3 apache-kafka spark-streaming hortonworks-data-platform

我们在Hortonworks上使用Kafka和Spark Streaming在On-Premise集群设置中运行实时流应用程序。

我们需要从Spark Streaming或Kafka推送一些事件触发数据,以保存在AWS的S3文件系统上。

任何关于此的指示都将受到赞赏。

1 个答案:

答案 0 :(得分:0)

你可以使用s3a://方案和Hadoop fileSystem API保存,例如有点像

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

设置类路径可能有点棘手,但是所有内容都应该在HDP中设置。更确切地说,如果它不是,我会得到支持调用:)