我正在评估带有处理引擎作为spark的spark sql和hive。大多数人更喜欢使用带有spark的hive而不是spark。我觉得spark的配置单元与spark sql相同。或者我在这里什么都没有。与在火花处理引擎上运行的hive相比,使用spark sql有什么优势。
任何线索都会有所帮助
答案 0 :(得分:0)
要点是执行查询的方式不同。
虽然使用Spark执行引擎配置Hive,但对于每个查询,您都会旋转一组新的执行程序,而在Spark SQL上,您将拥有一个Spark会话,其中包含一组长期存在的执行程序,您可以在其中缓存数据(创建临时表),从而可以大大提高您的查询速度。