应用错误收集

如何将流数据从On-Premise Hadoop集群保存到AWS S3

时间：2017-02-13 13:19:24

标签： amazon-web-services amazon-s3 apache-kafka spark-streaming hortonworks-data-platform

我们在Hortonworks上使用Kafka和Spark Streaming在On-Premise集群设置中运行实时流应用程序。

我们需要从Spark Streaming或Kafka推送一些事件触发数据，以保存在AWS的S3文件系统上。

任何关于此的指示都将受到赞赏。

1 个答案:

答案 0 :(得分：0)

你可以使用s3a：//方案和Hadoop fileSystem API保存，例如有点像

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

设置类路径可能有点棘手，但是所有内容都应该在HDP中设置。更确切地说，如果它不是，我会得到支持调用:)

将文件从AWS EMR集群中的映射器上载到S3
无法将NCDC数据从Amazon AWS复制到Hadoop群集
从AWS连接到Hadoop集群
如何使用Hadoop MapReduce将数据从aws s3导入HDFS
如何将流数据从On-Premise Hadoop集群保存到AWS S3
如何使用Oozie将数据从内部部署的hadoop集群传输到AWS S3？（Oozie安装在内部部署的cloudera集群上）
将文件从Google Cloud Storage加载到内部部署Hadoop集群
如何在一个群集中运行hadoop流作业并将输出写入其他群集？
将数据从本地迁移到AWS Redshift

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？