我正在努力解决这个问题。在Hue / Hive上执行查询后,我的输出表有1,200万个观察值。当我尝试以.csv
格式下载结果时,只能下载1百万个观察结果。我知道我可以执行一个查询,选择第一个0,9万的观察结果并下载结果,然后执行查询以提取最后的0.3百万个观察结果并下载结果然后合并到例如R统计包中。但也许有人知道如何用一种方法做到这一点吗?
答案 0 :(得分:2)
你可以将限额提高到100多万,但要注意它可能会减慢Hue:https://github.com/cloudera/hue/blob/master/desktop/conf.dist/hue.ini#L741
另一种方法是做一个CREATE TABLE AS SELECT ...(这会缩放,但默认情况下不会是CSV)
答案 1 :(得分:1)
简单的解决方案是将输出保存在HDFS目录中,然后从那里下载数据。使用这样的查询来存储结果:
插入覆盖目录“$ path”select * from ...