我正在项目中使用Apache Drill和HDFS。
我正在处理v.big文件(例如150GB),该文件存储在HDFS系统中。我正在编写我的Drill查询这样一种方式,我将获得一些数据,我将处理(例如100行),然后再次触发该文件的查询,所以我的性能将增加。
(例如SELECT * FROM dfs。file path
LIMIT 100)
但每当我对HDFS系统中的文件执行查询时,我都无法获得一致的数据。每当Hadoop从任何群集中获取数据时,它都会发生变化。
因此,情况可能是在获取所有记录的整个过程中,我可能会得到与我已经记录相同的记录。
答案 0 :(得分:1)
使用LIMIT
和OFFSET
分页可能会很幸运,尽管我不确定HDFS的行为。
有一个类似方法的问题How to use apache drill do page search,文档说:
OFFSET子句提供了一种在开始返回任何行之前跳过结果集中指定数量的第一行的方法。
(Source)