应用错误收集

用于实时OLAP查询的Spark

时间：2017-01-08 10:16:38

标签： apache-spark

我在via Kafka中有IoT数据流，并希望使用Spark SQL进行分析。我计划使用Sector将数据保存到S3，但在写入S3之前收集数据批量会有几分钟的延迟。

如何让Spark查询流数据和S3上的历史数据？我是否运行两个查询 - 一个使用Spark Streaming，一个使用Spark SQL，并尝试合并结果？

或者我是否需要使用OLTP数据库来实现此类功能？我想独立扩展计算和存储，这就是我使用Spark + S3的原因。

0 个答案:

没有答案