用于实时OLAP查询的Spark

时间:2017-01-08 10:16:38

标签: apache-spark

我在via Kafka中有IoT数据流,并希望使用Spark SQL进行分析。我计划使用Sector将数据保存到S3,但在写入S3之前收集数据批量会有几分钟的延迟。

如何让Spark查询流数据和S3上的历史数据?我是否运行两个查询 - 一个使用Spark Streaming,一个使用Spark SQL,并尝试合并结果?

或者我是否需要使用OLTP数据库来实现此类功能?我想独立扩展计算和存储,这就是我使用Spark + S3的原因。

0 个答案:

没有答案