标签: amazon-web-services apache-spark amazon-s3 streaming spark-streaming
我们正在使用Kafka,Spark Structured Streaming,Hive和s3开发流应用程序。
我的经理说请使用Hive的s3 instread。 但是我的问题/担忧是s3位于网络上的AWS云上。
我的应用程序数据从Kafka到Spark层再到正在运行的业务逻辑。
我们假设要从Hive写入和读取的中间数据。
如果将其放在s3上,我需要解决或遇到什么样的问题?
如何处理延迟?
我需要遵循任何行业标准的最佳实践吗?
如果您遇到问题,请分享更多详细信息或链接...