我有一张包含数百万条记录的表格。我想执行一个配置单元查询,并希望将结果集以块的形式返回给客户端。就像第一个客户端请求获取结果一样,我想返回前1000个记录,然后在后续请求中返回下一个1000条记录,依此类推。 一种方法是,在执行配置单元查询时获取完整的结果集并保存并根据客户端的请求迭代结果集。但是如果我的结果集非常庞大,那么它可以在将完整的结果集保存在内存中时创建内存不足问题。
是否有可能从hive的块中获取相同的hive查询的数据?根据我的探索,我发现hive不支持分页,并且每次我都无法执行在hive中使用limit子句进行查询,因为hive的文档说限制子句随机选择记录。
我正在使用JDBC进行hive查询执行。 JDBC中是否提供了可以与hive一起使用的解决方案? 或者还有其他方法可以解决此用例吗?
提前致谢。
答案 0 :(得分:0)
以下只是另一种方法:
使您的配置单元格被删除,并使用唯一的列或cloumns,并且具有范围内的值作为集群的字段。由于您使用集群,因此您将对数据进行全局排序和分布,以便您始终可以使用这些列作为过滤条件来执行选择查询。
以上只是一个建议。希望它有所帮助