s3存储桶中的Spark结构化流和数据

时间:2019-07-05 13:52:27

标签: amazon-web-services apache-spark amazon-s3 streaming spark-streaming

我们正在使用Kafka,Spark Structured Streaming,Hive和s3开发流应用程序。

我的经理说请使用Hive的s3 instread。 但是我的问题/担忧是s3位于网络上的AWS云上。

我的应用程序数据从Kafka到Spark层再到正在运行的业务逻辑。

我们假设要从Hive写入和读取的中间数据。

如果将其放在s3上,我需要解决或遇到什么样的问题?

  1. 如何处理延迟?

  2. 我需要遵循任何行业标准的最佳实践吗?

如果您遇到问题,请分享更多详细信息或链接...

0 个答案:

没有答案