使用SPARK作为执行引擎的Impala OR hive?

时间:2017-03-09 09:33:24

标签: hive apache-spark-sql hadoop2

我想设计从HDFS获取数据的Web UI。我想使用存储在HDFS中的这些数据生成一些报告。我有自己的自定义报告格式。我正在编写REST API以获取数据。但是运行HIVE查询会产生延迟问题因此我想要不同的方法,我可以想到两个。

  1. 使用IMPALA创建表格。但我不确定对IMPALA的REST支持。

  2. 使用HIVE而不是MR使用SPARK作为执行引擎。

  3. spark-job-server提供REST支持,并使用SPARK-SQL获取数据。

  4. 哪种方法适合或者有更好的方法吗? 请大家帮忙,因为我是新手。

1 个答案:

答案 0 :(得分:0)

如果延迟是主要考虑因素,我宁愿选择黑斑羚。它专门用于hdfs上的SQL处理并且做得很好。关于REST api和您正在实现的应用程序逻辑,这似乎是一个很好的example