应用错误收集

s3存储桶中的Spark结构化流和数据

时间：2019-07-05 13:52:27

标签： amazon-web-services apache-spark amazon-s3 streaming spark-streaming

我们正在使用Kafka，Spark Structured Streaming，Hive和s3开发流应用程序。

我的经理说请使用Hive的s3 instread。但是我的问题/担忧是s3位于网络上的AWS云上。

我的应用程序数据从Kafka到Spark层再到正在运行的业务逻辑。

我们假设要从Hive写入和读取的中间数据。

如果将其放在s3上，我需要解决或遇到什么样的问题？

如何处理延迟？
我需要遵循任何行业标准的最佳实践吗？

如果您遇到问题，请分享更多详细信息或链接...

0 个答案:

没有答案