假设我在HDFS中有大约10-20GB的数据作为Hive表。这是在几个Map-Reduce作业和两个不同数据集之后的JOIN之后获得的。我需要向用户提供这个Queryable。我有什么选择?
为了完整起见,我的数据如下:
id time cat1 cat2 cat3 metrics[200]
A123 1234212133 12 ABC 24 4,55,231,34,556,123....(~200)
.
.
.
(时间是时代)
我的查询看起来像这样:
select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;
我需要相关功能,这就是我选择postgresql而不是MySQL的原因。
答案 0 :(得分:0)
答案 1 :(得分:0)
您只需通过odbc连接到hiveserver端口并执行查询即可。 这是一个例子: http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/odbc/hive-odbc-v2-5-10.html
答案 2 :(得分:0)
Hive用户体验(hue)有一个Beeswax查询编辑器,专门用于将Hive暴露给熟悉SQL的最终用户。通过这种方式,他们可以针对驻留在Hive中的数据运行即席查询,而无需将其移动到其他位置。您可以在此处查看Beeswax查询编辑器的示例:http://demo.gethue.com/beeswax/#query
这对你有用吗?
答案 3 :(得分:0)
从上面发布的问题我能理解的是你有一些数据(20GB),你已经存储在hdfs和使用配置单元。现在,您希望访问该数据以执行某些统计功能,如关联和其他。