标签: apache-spark
我在via Kafka中有IoT数据流,并希望使用Spark SQL进行分析。我计划使用Sector将数据保存到S3,但在写入S3之前收集数据批量会有几分钟的延迟。
如何让Spark查询流数据和S3上的历史数据?我是否运行两个查询 - 一个使用Spark Streaming,一个使用Spark SQL,并尝试合并结果?
或者我是否需要使用OLTP数据库来实现此类功能?我想独立扩展计算和存储,这就是我使用Spark + S3的原因。