我实际上是在问自己关于使用Spark SQL和Hive进行实时分析的表现。 我知道Hive是为批处理而创建的,而Spark则用于快速查询。
但是,使用带有Hive的Spark SQL会让我进行实时查询吗?或者它只是提出最快的查询但不是实时的。 我应该使用其他数据仓库而不是像Hbase那样的Hive吗?
提前致谢, 弗洛里安
答案 0 :(得分:1)
虽然Spark可以比蜂巢快得多,但它仍然可能不是理想的服务网站的解决方案。因此,如果Spark SQL可以实现"实时"查询与否在很大程度上取决于您认为实时的时间轴类型,数据集是否足够小以便在内存中缓存,以及查询是否能够利用分区。