标签: apache-spark hive mapreduce hbase
我正在考虑将Apache Hive用作正在构建的应用程序的后端。此应用程序的要求是:
我目前正在AWS EMR的4个节点上运行Hive。 Hive实例正在从Apache Hbase表读取。但是,即使仅计算两列的相关性也非常慢(超过20秒):
SELECT corr(col1, col2) FROM table
这是Hive的错误用例吗?如果是这样,是否有更好的选项可以与Hbase一起使用(Phoenix,Spark等?)