我在hbase中有一个包含10亿条记录的表。我想根据特定条件(按日期)过滤记录。
例如:
Dataframe.filter(col(date) === todayDate)
在将表中的所有记录加载到内存中后,我将应用过滤器,否则我将获得过滤记录?
答案 0 :(得分:0)
如果你的用例只是从存储中读取,过滤并将其保存在某个地方,如果你有办法将数据直接读入RDD(这会延迟加载记录),那么过滤器将通过读取和写入进行流水线操作。这意味着过滤操作不会等待读取整个数据[简而言之,过滤器是转换,而不是操作]。如果您在过滤器之前有任何操作,则只有在从商店读取整个数据后才会应用过滤器。